Création Parseur de CV

**fghi1** · 10/01/2013, 13h23

Bonjour,

Je veux créer un parseur de CV qui permet d'extraire toutes les informations ( Titre du CV ,Civilité ,Prénom ,Nom ,Date de naissance ,Adresse ,Ville ,Expériences,Formations.....) depuis un document word ou pdf.
J'ai pu faire la reherche avec pattern (j'utilise java) mais dans la plupart des cas les informations récupérées sont incorrectes.
je veux une API pour m'aider à faire une extraction des informations .

**tchize_** · 10/01/2013, 22h57

Incorrecte comment.

Si tes CVs ne sont pas standardisés, j'ai peur que ce soit peine perdue

J'ai déjà reçus pas mal de CV et sur certains, même avec mon cerveau, pour certains, je n'arrive pas toujours à savoir tellement c'est mélangé n'mporte comment

**fghi1** · 11/01/2013, 10h39

Merci pour votre réponse,
Au debut j'ai creer un parseur sur les Cv standardisés ca marche, mais moi je veut aussi qu'il puisse trouver méme 50% des informations avec les Cv non standardisés ,donc je veut juste des API ou autres pour m'aider a resoudre le probléme

**tchize_** · 11/01/2013, 10h42

Il n'y a pas 36.000 api, si tu arrive déjà à lire tes CVS standardisé, les méthodes sont les même: extraire le texte et la structure du document à partir de ces apis (itext pour pdf, je ne sais pas ce que tu as utilisé pour word), et puis comparer avec des chaines de caractères précises pour identifier les sections. Genre si tu li expérience, expériences, expérience(s), tu a de forte chance que la structure qui suit derrière soit l'expérience de la personne. Si le texte patch un truc de style xx/xx/xxxx tu as de fortes chances que ce soit une date.

Dans tout les cas tu va devoir chipoter et bidouiller jusqu'à arriver à un résultat convenable.

**fghi1** · 11/01/2013, 11h07

Envoyé par tchize_

Il n'y a pas 36.000 api, si tu arrive déjà à lire tes CVS standardisé, les méthodes sont les même: extraire le texte et la structure du document à partir de ces apis (itext pour pdf, je ne sais pas ce que tu as utilisé pour word), et puis comparer avec des chaines de caractères précises pour identifier les sections. Genre si tu li expérience, expériences, expérience(s), tu a de forte chance que la structure qui suit derrière soit l'expérience de la personne. Si le texte patch un truc de style xx/xx/xxxx tu as de fortes chances que ce soit une date.

Dans tout les cas tu va devoir chipoter et bidouiller jusqu'à arriver à un résultat convenable.

Merci pour votre rapide réponse,
Moi j'utilise pour la conversion en text "Apache Tika" ce qui pose le probléme est la structure du CV

par exemple:
certain ecrit :
'Nom et Prénom :' ,'Nom': et 'Prénom :' ,'directement Monprénom MONNOM'

ca c'est le cas le plus simple mais il y d'autre plus compliquer
donc je pense qu'il peut y avoir un chemin vers une autre solution plus efficase

**thelvin** · 12/01/2013, 01h50

Envoyé par fghi1

donc je pense qu'il peut y avoir un chemin vers une autre solution plus efficase

Oui, un réseau de neurones, auquel tu fournirais genre 1000 CVs réels en lui apprenant comment les lire, et à partir de là il saurait comment on lit un CV et pourrait faire tous les autres à ta place.

Plus efficace, mais passablement plus fastidieux.

Création Parseur de CV

Documents Java

Discussions similaires

Partager

Partager