Bonjour,

Je suis un étudiant et je travaille sur un projet de statistique qui consiste a construire un correcteur orthographique.
J'aurai quelques questions à ce sujet auxquelles je n'arrive pas à trouver de réponses.
Pour donner un peu de contexte, voici les étapes de fonctionnement du correcteur :

- Verifier quels mots sont erronés (hunspell check).

- Donner plusieurs propositions de corrections avec un dictionnaire de mots et plusieurs algorithmes (dont Levenshtein par exemple)

- Créer des données associées à cette erreur et à la correction associée.

- Choisir la meilleur proposition parmi la liste proposée (pour ça on utilise un modèle logit)

Le problème que j'ai c'est que j'ai une information sur l'erreur que je n'arrive pas a exploiter dans mon modèle.
C'est le "thème" de l'erreur. Par exemple si le contexte dans lequel l'erreur a été écrite est le milieu scolaire, apprendre sera mieux que prendre si l'erreur est "aprendre".

Nous avons construit des dictionnaires de mots associés à une liste de thèmes préétablie et avons ajouté une variable indicatrice de l'appartenance de la correction proposée au bon thème.

Cela aurait dû être significatif, mais cette variable n'a rien ajouté à notre modèle. Pour des raisons que je m'explique relativement peu. Je pense que cela est dû à la structure des dictionnaires thématiques.
Si ils sont trop petits, ils ne sont pas assez impactant, si ils sont trop grands, il deviennent représentatifs de la fréquence d'utilisation du mot plutôt que du thème et nous avons déjà une autre variable qui représente cette information bien mieux.

Je n'ai pas d'idée par rapport à comment construire ces dictionnaires thématiques d'une autre manière. (On les avait construit en mettant quelques mots associés aux thèmes puis on a utilisé un algorithme qui est allé repéré des mots associés à eux parmi un corpus de texte).

Une autre chose qui m'inquiète c'est le fait que nous n'avons pas vraiment trouvé d'algorithme préconçu (autre que le pyspellchecker) déjà utilisé dans le monde professionnel. Donc je ne sais pas si nous sommes en train de "réinventer la roue".

Merci d'avance.