Bonjour,
Je cherche un logiciel ou une procedure permettant d'extraire des mots clés d'un texte. Si quelqu'un a des infos, je suis preneur...
Olive
Bonjour,
Je cherche un logiciel ou une procedure permettant d'extraire des mots clés d'un texte. Si quelqu'un a des infos, je suis preneur...
Olive
Si tu veux tu as Lex/Yacc pour parser. Mais il faut s'y plonger un peu dedans.
Ou plus simplement tu peux essayer le Perl, c'est pratique pour ca.
Voila, c'est ce que je connais...
Sinon tu peux :
0 Initialiser Fichier,LigneTampon,MotTampon,CaractèreTampon
1 Essayer d'ouvrir ton Fichier
2 Tant que tu n'es pas à la fin du Fichier:
- 2.1 Affecter la Ligne courrante à LigneTampon
- 2.2 Tant que tu n'es pas à la fin de LigneTampon
-- 2.2.1 Affecter le caractère courrant de LigneTampon à CaractèreTampon.
-- 2.2.2 Si CaractèreTampon n'est pas une lettre voir si MotTampon est une clé et faire ton traitement et Vider MotTampon
-- 2.2.3 Sinon Concaténer CaractèreTampon à MotTampon
-- 2.2.4 Passer à la lettre suivante.
- 2.3 passer à la ligne suivante.
Bon c'est pas super clair mais le principe est là
Sinon, il ya aussi les automates à états très utilisés dans le parsing
Salutation jeune padawan,
Tu peux aussi fouiner du côté des algorithmes LDA (Latent Dirichlet Allocation), LSA, SVD et compagnie.
Un exemple d'algo : http://php-nlp-tools.com/posts/intro...llocation.html
Dans un projet perso, cela me permettait, à partir d'un texte, de générer un ou plusieurs groupes de "mots-clés" thématiques.
Par exemple :
pour le livre Dracula de Stolker, je pouvais définir des groupes de mots-clés :
- vampire = {dent, mordre, sombre}
- arme = {pieu, pioche, pelle}
...
Cdt
Bonjour
Tu peux aussi chercher des informations sur les "expressions régulières" = "regular expressions" = "regex".
Parser le texte, et extraire les mots, c'est la première étape.
Ensuite quand on a tous les mots, il faut déterminer les mots clés.
Et là, voici des "mots-clés " qui devraient te permettre de faire des recherches efficaces :
- text-mining ou data-mining
- similarité-cosinus
- TF-IDF
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager