IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Détection de fraudes aux examens


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé

    Profil pro
    Inscrit en
    Mars 2002
    Messages
    115
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2002
    Messages : 115
    Par défaut Détection de fraudes aux examens
    Bonjour à tous,
    Je souhaiterais concevoir un logiciel de détection de fraudes aux examens.
    On se restreint pour le moment aux épreuves de type QCM.
    Les résultats sont connus (pour chaque élève, une base de données référençant les réponses à chaque question ainsi que la note existe).
    Comment modéliser le degré de ressemblance entre deux copies sachant que
    - les copieurs ont l'habitude de "pomper" des séries de N questions consécutives (par ex, de la question 6 à la 21)
    - deux personnes ayant une bonne note (donc beaucoup de réponses correctes en commun) ne sont pas forcément coupables.

    Je suis familiarisé avec les outils statistiques (variables aléatoires, matrice de covariance, etc...) mais je ne sais pas comment mathématiser mon problème
    Merci d'avance

  2. #2
    Expert confirmé

    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 419
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 419
    Par défaut
    on peut mesurer le nombre de réponses communes
    le nombre maxi de réponses communes consécutives
    pour chaque candidat pris deux à deux
    et les mêmes grandeurs prises en moyenne pour l'ensemble des candidats
    avec leur écart type

    on revient vers les mesures individuelles et on mesure ces grandeurs en écart type

    on dresse un tableau hiérachique des candidats probables
    on s'intérèsse alors aux réponses fausses pour ceux ci
    si le qcm a quatre choix il est beaucoup plus improbable de donner la même réponse fausse 1/3 alors que si les deux savent la réponse
    on a une probabilité de 1

    l'idéal serait alors de disposer de l'emplacement des deux candidats

    on pourrait alors faire passer le test sur des machines en réseau cela permettrait de détecter le second qui répond et d'activer sa chaise électrique quand le programme détecterait une fraude

  3. #3
    Membre chevronné Avatar de xxiemeciel
    Inscrit en
    Juin 2005
    Messages
    371
    Détails du profil
    Informations forums :
    Inscription : Juin 2005
    Messages : 371
    Par défaut
    Salut,

    Que se passe-t-il pour un QCM avec 4 reponses possible a chaque question mais :
    - Il y a une seule bonne reponse
    - Il y a une reponse vraisemblable mais fausse
    - Deux reponses completement a coté de la plaques

    Des etudiants moyens pourraient tout a fait avoir des sequences communes en cochant la reponse vraisemblable a plusieurs reprises.

    Ton logiciel doit-il tenir compte de la positions de etudiants passant l'examen, car si ils sont a des coins opposés de la piece ils seraient difficile de tricher.

    XXiemeciel

  4. #4
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 43
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Par défaut
    Reprise du post de random :
    Si on prend une séquence de réponses :
    - la probabilité qu'ils aient la même réponse s'ils répondent correctement est de 1
    - la probabilité d'avoir la même réponse fausse est de 1/3

    Pour savoir la probabilité d'avoir la même séquence de longueur n, il suffit de multiplier les probabilités de chaque réponse.
    Si tu as une série de questions avec les mêmes réponses avec 4 fausses réponses identiques, tu as 2% de chances que ce soit dû au hasard.

    Mais effectivement, si le QCM a des réponses loufoques, il faut augmenter la probabilité de réponse fausse.

    Il faudrait améliorer la formule, pour l'instant, elle ne me plaît pas trop

  5. #5
    Membre confirmé

    Profil pro
    Inscrit en
    Mars 2002
    Messages
    115
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2002
    Messages : 115
    Par défaut
    Merci à tous pour vos pistes.
    Concernant le positionnement des étudiants, on y a accès. L'objectif serait plutôt celui décrit dans le premier post de Miles à savoir
    1/ Je regarde les loustics les plus probables à l'aide d'une tambouille statistique
    2/ Je valide mes résultats en regardant a postériori le placement dans la salle d'examen

    Pour le moment, on ne prend pas en compte les fausses réponses destinées à induire en erreur les candidats. Très simplement, à l'avenir, on pourra sortir de l'équiprobabilité de réponses fausses en pondérant selon la vraisemblance de la réponse en fonction d'une table donnée au départ.

    Pour en revenir à la première réponse de Miles, je ne comprends pas ceci :

    et les mêmes grandeurs prises en moyenne pour l'ensemble des candidats
    avec leur écart type

    on revient vers les mesures individuelles et on mesure ces grandeurs en écart type
    Cela signifie t'il que, pour chaque candidat, on prend la moyenne/l'écart-type de la taille max de séquence de réponses identiques {S1, S2,...,Sn-1} et du nombre de réponses communes {R1,...Rn-1} prises par rapport aux autres étudiants (n = nb d'étudiants) ?
    Dans ce cas en quoi consiste le "retour aux valeurs individuelles" et le nouveau calcul de l'écart type.

    Merci !!!

  6. #6
    Membre émérite Avatar de benratti
    Profil pro
    Inscrit en
    Mai 2004
    Messages
    471
    Détails du profil
    Informations personnelles :
    Âge : 45
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mai 2004
    Messages : 471
    Par défaut
    Citation Envoyé par GoldenEye
    Merci à tous pour vos pistes.
    Concernant le positionnement des étudiants, on y a accès. L'objectif serait plutôt celui décrit dans le premier post de Miles à savoir
    1/ Je regarde les loustics les plus probables à l'aide d'une tambouille statistique
    2/ Je valide mes résultats en regardant a postériori le placement dans la salle d'examen
    Juste une petite remarque... Au niveau complexite, il serait plus jusdicieux de faire l'inverse. Tu selectionnes uniquement les voisins et apres tu fais passer ta tambouille statistique.

    je m'explique. Imaginons que tu ais une salle de n sur m, tu peux accueillir n*m candidats. Si tu fais toutes les comparaisons, tu as (n*m) * (n*m - 1) / 2 tambouilles statistique a faire, bref, tu auras une complexite de o(n^2 * m^2) . alors que si tu fais une selection au prealable, sachant que tu a un nombre tres limites de voisins pour chaque candidats, disons 8 par candidats en faisant un approximation des candidats se trouvant sur les bords qui n'ont que 5 voisins et ceux des coins qui n'ont que 3 voisins... ca te fait 8 * ( n*m ) / 2 tambouilles statistique a faire. Ce qui te fais une complexite de o(n*m), ce qui est quand meme inferieur celle trouve avant...

    Mais bon, je ne sais pas trop a quoi vas te servir ton application, si c'est juste pour une classe de 30 eleves ca passe encore, mais si c'est pour une salle de d'examen a la fac avec des fois 500 etudiants, ca peut etre interessant de faire l'optimisation.

  7. #7
    Membre confirmé

    Profil pro
    Inscrit en
    Mars 2002
    Messages
    115
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2002
    Messages : 115
    Par défaut
    Les examens concernent une faculté avec 1000 étudiants pour chaque épreuve (ordre de grandeur). Ceux ci sont répartis par salles de 50-200 et les copies sont groupées par salles.
    Le problème est que l'accès aux places des étudiants n'est pas immédiat (démarches administratives) sans compter la difficulté pour rentrer le "plan de table" dans la machine. D'où la vérification "a postériori" seulement bien que la complexité combinatoire soit plus élevée


    Par ailleurs, la pompe n'est pas généralement circonscrite au voisinage immédiat de l'étudiant. En effet, il est fréquent qu'une rangée de P étudiants "se passe le mot".

  8. #8
    Membre émérite Avatar de benratti
    Profil pro
    Inscrit en
    Mai 2004
    Messages
    471
    Détails du profil
    Informations personnelles :
    Âge : 45
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mai 2004
    Messages : 471
    Par défaut
    Pour avoir ete etudiant et donc passe un nombre important d'examen, j'ai remarqué que les tables etaient tres souvent numeroté et que l'on avait la possibilite de noter le numero de table sur la copie. Donc il suffit de rentrer une fois la configuration des tables et le tour est joue... il faut verifier que l'ordre des tables n'a pas changé.

    De plus, pour l'histoire des rangées d'eleves qui se font passer le mot, je pense que l'on peut se limiter aux voisins... En effet, la recherche de rangées ou plutot de groupe d'eleves ayant des parties communes est de complexite beaucoup plus important, surtout si tu les recherches sans connaitre le placement des eleves. Cela revient a calculer ta tambouille statistique pour toutes les sous-parties de ton ensembles d'eleves, et la ca devient carrement exponentiel, donc a eviter fortement... donc il faut se limiter a des comparaisons deux a deux... et au final, si ton analyse est correcte, tu peux en deduire que si A a une copie proche de celle de B et idem pour C et B alors il y a eu ton phenomene de rangées qui se passent le mot pour A, B et C... et tu peux le deduire des resultats obtenu par l'analyse deux a deux....

    Une derniere remarque. Il est peut etre plus facile de reperer des similitudes sur un groupe de copies, mais le probleme c'est que le nombre de groupe possible est exponetielle en ton nombre de candidat, surtout si tu ne fait aucun hypothese sur le placement de tes eleves....

  9. #9
    Membre confirmé

    Profil pro
    Inscrit en
    Mars 2002
    Messages
    115
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2002
    Messages : 115
    Par défaut
    Effectivement, les tables sont numérotées et l'ordre est
    -alphabétique
    -numéro d'étudiant
    au choix.
    A partir de là, on peut en effet, récupérer le 3-uplet {grille de réponses, placement, identité} et circonscrire le calcul.
    Pas idiot du tout. Merci
    Je n'attends plus que les précisions de Miles avant de coller une belle mention "Résolu"

  10. #10
    Membre chevronné Avatar de xxiemeciel
    Inscrit en
    Juin 2005
    Messages
    371
    Détails du profil
    Informations forums :
    Inscription : Juin 2005
    Messages : 371
    Par défaut
    Une derniere question que je me pose, A quoi va servir se logiciel est ce qu'il est pour un but informationnel ou y a t-il un but de repression des fraudes derriere.

    en bref, je ne pense pas qu'il soit possible de juger quelqu'un sur la valeur statistique d'un logiciel.

    XXiemeciel

  11. #11
    Membre confirmé

    Profil pro
    Inscrit en
    Mars 2002
    Messages
    115
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2002
    Messages : 115
    Par défaut
    Le logiciel répond à un besoin d'expérimentation d'une université. S'il y a des exceptions qui infirment la règle statistique, rien n'empêche l'administration de convoquer le suspect pour demander des explications.
    Quand j'étais étudiant à l'étranger, il y a avait un système comme cela (pas pour des QCM). Le programme ne se posait pas de questions, c'était 0 au delà d'un certain seuil de ressemblance et les étudiants concernés étaient convoqués pour un remise en place des bretelles

  12. #12
    Membre chevronné Avatar de xxiemeciel
    Inscrit en
    Juin 2005
    Messages
    371
    Détails du profil
    Informations forums :
    Inscription : Juin 2005
    Messages : 371
    Par défaut
    Dans ce cas je pense il faut que le taux d'Erreur de l'application soit le plus faible possible.

    C'est comme pour un vaccin qui va etre injecter a un grand nombre de personne, le pourcentage de mauvaise reaction doit etre tres faible.

    Imagine un taux d'erreur de 1%, ca parait faible mais sur 1000 déclarés coupable ca fait 10 personnes potentiellement convoqué pour rien car elles sont innocentes.

    XXiemeciel

  13. #13
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 43
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Par défaut
    Attention, ce n'est pas moi, c'est random qui a écrit ce que tu as indiqué !

  14. #14
    Expert confirmé

    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 419
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 419
    Par défaut
    Pour ma part je procéderais ainsi en combinant deux approches
    D’abord étalonnage des questions
    Je compterais pour chaque question ayant une réponse fausse sa probabilité dans la distribution des réponses fausses
    Par exemple
    Réponse 1 51% 32% 4% 13%
    réponse2 15.00% 13.00% 24.00% 48.00%
    La probabilité d’un étudiant de donner 1(3) 2(2) devient très faible 4%*13%
    Mais celle que deux étudiants donnent ces réponses est plus faible

    Les réponses les moins probables seront de précieux indicateurs de pondération

    Ensuite je calculerais le coefficient de corrélation des étudiants pris deux à deux (cela va brasser pas mal de données) que je classerais en ordre décroissant
    Je retiendrais le premier décile
    Je m’intéresserais alors uniquement aux réponses fausses communes des étudiants sélectionnés
    Et je calculerais leur probabilité cumulée
    Je dresserais un nouveau palmarès et j’examinerais alors le placement des lauréats avec un paramètre fraude possible impossible
    Si le palmarès des possibles ressemble à celui des impossibles (même ordre de grandeur) des possibiltés cumulés je laisserais tomber
    Sinon je me poserais des questions

    pour les étudiants technique de fraude
    je sais je réponds et mon voisin copie après un signe
    mon voisin sait il répond me fait signe et copie
    personne ne sait je tire la réponse au hasard en regardant ma montre

  15. #15
    Membre confirmé

    Profil pro
    Inscrit en
    Mars 2002
    Messages
    115
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2002
    Messages : 115
    Par défaut
    Toutes mes excuses pour l'erreur sur les identités
    Concernant l'approche de Random, j'ai un petit problème. Tu sembles te baser uniquement sur les réponses fausses. Or des étudiants peuvent très bien avoir copié en ayant des réponses correctes. J'aimais bien l'approche avec la nombre maximal de questions consécutives communes en plus du simple comparatif dn nombres de réponses identiques
    Je retiens aussi l'idée de procéder en deux temps.
    Merci

  16. #16
    Expert confirmé

    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 419
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 419
    Par défaut
    je me suis certainement mal exprimé
    je fais d'abord un palmarès des coefficients de corrélation toutes réponses confondues
    c'est pour les lauréats de ce premier palmarès que j'institue un second tour avec seulement les réponses fausses paecequ'elles sont plus productives
    en effet une réponse juste n'apporte qu'une petite information
    soit 12 la moyenne sur 20 avec une question à quatre entrée
    cela veut dire que 46.666% des canditas connaissaient la réponse et que
    (1-46.66) ont repondu juste avec une proba de 1/4 s'il y a quatre questions ceci signifie de toutes facçons que le pouvoir discriminant de l'information est faible 1-.60%=0.4
    intéréssons nous maintenant au pouvoir discriminant des autres cas
    il reste 40% des réponses avec une probabilté de 1/3 c'est dire que le pouvoir d'information est de l'ordre de .9
    voir à ce sujet les applications du théorème de bayes
    maintenant les séquences de questions ne me semblent pas nécessairement probantes
    supposons 5 questions consécutives du genre combien font 11*11,
    qui est molière etc
    suivie de deux autres questions demandant par exemple quel est la moitié du quart du tiers du cinquième et de qui a écrit l'âne culotte ?
    nous aurions un séquence élevée 5/7 sans auncun pouvoir d'analyse
    si ce n'est qu'il s'agit probablement de question facile
    comment sont faits ces qcm supposons une moyenne visée de 10
    on va choisir 8 questions moyennes permettant de classer les élèves
    reste 12 questions dont 3 de perdues par l'effet hasard
    reste 9 questions permettant vraiment de faire une sélection

Discussions similaires

  1. Réponses: 3
    Dernier message: 14/08/2013, 12h08
  2. [FRAUDE] Avis aux webmasters d'e-commerce
    Par Gaetan_ dans le forum E-Commerce
    Réponses: 0
    Dernier message: 21/03/2011, 15h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo