text mining : Développement d'un outil d'analyse de CV
Salut !
J'ai pour mission de développer un outil d'analyse automatique de CV pour en extraire :
- Les informations personnelles (Nom, prénom, adresse, titre, civilité, etc.)
- Les expériences professionnelles
- Les formations (Diplômes)
- Les stages
N'ayant jamais travaillé sur un projet de text mining, Je n'ai pas beaucoup d'idées sur les étapes à suivre pour implémenter un tel outil, les algorithmes à utiliser etc.
Si vous avez des idées sur la démarche à suivre, n'hésitez pas ;)
Cordialement,
Obligé de faire un développement?
Bonjour,
C'est un problème très compliqué si on ne veut pas trop d'erreurs. Reconnaître l'état civil est déjà difficile mais extraire aussi formations et expériences est un projet lourd qui nécessite au moins quelques années-hommes. Je m'y connais, je fais du text mining depuis plus de 15 ans et c'est un pb que j'ai regardé de près il y a quelques années. Si l'objectif est d'arriver à un bon résultat en quelques mois, la seule solution est de prendre une techno existante éprouvée comme celle de Koltech et d'appeler son API!
Sinon, il n'est jamais trop difficile d'analyser un cv en particulier mais chacun a ses particularités et c'est l'additions de beaucoup d'heuristiques et de dictionnaires qui permettent d'arriver à une bonne couverture. Il faut donc commencer par fabriquer un jeu de test étendu avec les bonnes réponses et automatiser la mesure de qualité. Ça permet de mesurer réellement les progrès.
La première difficulté ensuite est tout simplement la conversion du CV qui arrive généralement en Word ou en PDF. Le résultat varie beaucoup selon le template utilisé dans Word, le logiciel utilisé pour générer le PDF, le convertisseur utilisé... Rien ne dis que ce qui est "en haut à gauche" a l'écran sera en début de fichier par exemple. On perd souvent aussi les colonnes ou leurs alignement ce qui rend problématique le rattachement des dates et des formations ou expériences. Une mauvaise conversion rends la tâche impossible de suite. Il faut donc bien choisir les processus de conversions.
Bon courage