IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

text mining : Développement d'un outil d'analyse de CV


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Avatar de ridan
    Inscrit en
    Avril 2003
    Messages
    710
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Avril 2003
    Messages : 710
    Par défaut text mining : Développement d'un outil d'analyse de CV
    Salut !

    J'ai pour mission de développer un outil d'analyse automatique de CV pour en extraire :
    • Les informations personnelles (Nom, prénom, adresse, titre, civilité, etc.)
    • Les expériences professionnelles
    • Les formations (Diplômes)
    • Les stages

    N'ayant jamais travaillé sur un projet de text mining, Je n'ai pas beaucoup d'idées sur les étapes à suivre pour implémenter un tel outil, les algorithmes à utiliser etc.

    Si vous avez des idées sur la démarche à suivre, n'hésitez pas

    Cordialement,

  2. #2
    Membre chevronné Avatar de seeme
    Profil pro
    Inscrit en
    Octobre 2005
    Messages
    430
    Détails du profil
    Informations personnelles :
    Âge : 38
    Localisation : France

    Informations forums :
    Inscription : Octobre 2005
    Messages : 430
    Par défaut
    Bonjour,

    Je ne suis pas du tout spécialiste, mais je procèderais comme ça:

    - Catégoriser chaque type de données par leur position probable dans le document (état civil en haut à gauche par exemple), type (chaine de caractère, numéros..).
    - Parser le document pour retrouver ces données et faire des prédicats sur leur nature..

    Le problème est qu'il faudrait déjà voir si la source est un minimum uniformisée (format, langue...).

    Une autre solution serait un réseau de neurone, mais je suis sûr qu'il doit exister des moyens spécifiques pour ce genre de tâches...

    (Le problème me parait carrément compliqué avec mes maigres connaissances, vu l'hétérogénéité du corpus de base...)

  3. #3
    Membre éclairé
    Avatar de ridan
    Inscrit en
    Avril 2003
    Messages
    710
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Avril 2003
    Messages : 710
    Par défaut
    Merci pour votre réponse,

    En fait, le procédé que je suis est assez proche du votre : Je compte retrouver les sections identiques que comporte un document. Ensuite je vais essayer de récupérer une à une les données dont j'aurais besoin.

    Mon processus est un peu archaïque, je travaille avec les outils dont je dispose en attendant de trouver une meilleure approche.

  4. #4
    Expert confirmé Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Par défaut
    Bonjour,

    Mon approche serait :

    1) d'isoler des blocs en fonction des interlignes et de la taille des caractères.

    2) caractériser les blocs par la présence de mots clés ou de patterns pour les associer à une rubrique
    rubrique Données personelles : présence de prénoms, de mots composant l'adresse (rue, boulevard, route avenue, ...), des mot "ans", "tél", "e-mail", de suite de plus de 9 chiffres consécutifs en ignorant " ", "-" ou ".", d'un patern d'e-mail, ...
    Formation : "diplome", "formation", "DUT", "BTS", "Licence", "langue", "Anglais", Allemand, ...
    Expérience professionelle : "Expérience", "professionelle", nombres de 4 chiffres entre 1970 et 2010, ???
    Stage : "stage", "mois", ???
    Loisirs/centre d'intérets: "Lecture" "sport" "cinéma" "football" "tennis" musique

    2) faire du text mining sur chaque bloc en fonction du type de rubriques
    Bon courage

    J'envisagerais aussi la possibilité d'un traitement semi-automatique avec intervention humaine pour contrôler, lever des ambiguïtés, corriger

    Ceci permettrait entre autres utilités d'opérer par apprentissage pour associer des rubriques à des blocs.
    On compare un bloc avec tous ceux des CV analysés et validés. A chaque mot du bloc, et pour chaque type de rubrique, on connaitra le nombre de CV dans lequel le mot apparait pour la rubrique considérées.

    Reste alors à définir une pondération des blocs qui va privilégier :
    1. les mots apparaissant dans beaucoup de CV,
    2. les mots apparaissant surtout dans un type de rubrique,
    3. les blocs avec beaucoup de mots caractèrisant la rubrique suivant les critres 1) et 2).

  5. #5
    Membre confirmé
    Profil pro
    Inscrit en
    Février 2008
    Messages
    39
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2008
    Messages : 39
    Par défaut Obligé de faire un développement?
    Bonjour,

    C'est un problème très compliqué si on ne veut pas trop d'erreurs. Reconnaître l'état civil est déjà difficile mais extraire aussi formations et expériences est un projet lourd qui nécessite au moins quelques années-hommes. Je m'y connais, je fais du text mining depuis plus de 15 ans et c'est un pb que j'ai regardé de près il y a quelques années. Si l'objectif est d'arriver à un bon résultat en quelques mois, la seule solution est de prendre une techno existante éprouvée comme celle de Koltech et d'appeler son API!

    Sinon, il n'est jamais trop difficile d'analyser un cv en particulier mais chacun a ses particularités et c'est l'additions de beaucoup d'heuristiques et de dictionnaires qui permettent d'arriver à une bonne couverture. Il faut donc commencer par fabriquer un jeu de test étendu avec les bonnes réponses et automatiser la mesure de qualité. Ça permet de mesurer réellement les progrès.

    La première difficulté ensuite est tout simplement la conversion du CV qui arrive généralement en Word ou en PDF. Le résultat varie beaucoup selon le template utilisé dans Word, le logiciel utilisé pour générer le PDF, le convertisseur utilisé... Rien ne dis que ce qui est "en haut à gauche" a l'écran sera en début de fichier par exemple. On perd souvent aussi les colonnes ou leurs alignement ce qui rend problématique le rattachement des dates et des formations ou expériences. Une mauvaise conversion rends la tâche impossible de suite. Il faut donc bien choisir les processus de conversions.

    Bon courage

  6. #6
    Membre Expert
    Homme Profil pro
    Chercheur
    Inscrit en
    Mars 2010
    Messages
    1 218
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Chercheur

    Informations forums :
    Inscription : Mars 2010
    Messages : 1 218
    Par défaut
    Bonsoir,

    je n'ai pas une grande expérience dans le domaine mais à l'époque où j'ai dû en faire j'avais commencé par calculer les fréquences de chaque terme parmi tous mes textes, puis la fréquence des paires de mots, etc.

    En prenant les fréquences les plus élevées, tu devrais détecter des expressions clés du type "expérience professionnelle", comme te l'a indiqué graffito.

  7. #7
    Membre éclairé
    Avatar de ridan
    Inscrit en
    Avril 2003
    Messages
    710
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Avril 2003
    Messages : 710
    Par défaut
    J'ai désormais une idée sur la démarche à suivre. Merci pour vos réponses !!

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Outil d'analyse de fréquentation : vos expériences...
    Par rozwel dans le forum Statistiques
    Réponses: 9
    Dernier message: 04/07/2008, 21h29
  2. Outil d'analyse de code
    Par Bloon dans le forum Outils
    Réponses: 8
    Dernier message: 07/08/2007, 09h04
  3. Outils d'analyse statique de code assembleur ?
    Par atomic dans le forum Assembleur
    Réponses: 4
    Dernier message: 11/06/2004, 11h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo