Compter les mots, même les composés

**Magaliz** · 10/08/2013, 11h32

Bonjour, je suis nouvelle sur le forum, et linguiste, et je fais du python depuis deux ans (je ne connais pas encore bien l'objet). Je suis actuellement en stage, et pour les besoins du programme que j'essaie de réaliser, j'ai besoin de compter les mots de chaque ligne d'un fichier. Mais je ne lis pas un fichier qui ne contient que des mots: il y a du bruit qui vient de balises html, même si j'en ai supprimé une grosse partie.
J'ai besoin de savoir si ma ligne contient bien des vrais mots, et si oui, combien;
Le problème auquel je suis confrontée vient des mots composés, mais seulement ceux avec deux tirets, par exemple: "c'est-à-dire", qui est compté comme un seul mot, à cause du "c'" et moi j'en veux deux.

Je réussis à compter tous les autres mots, en parcourant ma ligne, que je découpe comme ça:
re.split(" |'") et avec quelques instructions pour définir si le mot est bien composé d'une suite de caractères alphanumériques (oui parce que je dois compter "9" comme un mot), et ensuite je fais un search avec cette expression régulière :
"[A-Za-z][a-z]+-[a-z]+" pour trouver les mots composés. Mais pour "c'est-à-dire", ça ne fonctionne pas. J'ai essayé cette expression:
"[A-Za-z][a-z]+-[a-z]+-[a-z]+" mais ça me compte toujours un seul mot.

Je me demandais si quelqu'un voit une erreur dans l'expression régulière?
Ou si il y a une autre solution...
On m'a proposé une fonction qui utilise NLTK :

http://stackoverflow.com/questions/5...-an-input-file

Mais ça me paraît compliqué et j'aurais aimé éviter d'utiliser une bibliothèque externe... Enfin, je ne sais pas trop mais j'ai peur que ce soit trop lourd, parce que j'utilise déjà une autre bibliothèque externe dans la suite de mon programme.

Je vous remercie d'avance si vous pouvez m'aider.

**wiztricks** · 10/08/2013, 12h12

Salut,
L'URL mentionnée propose des solutions avec ou sans NLTK pour réaliser un algo. qui va bien au delà de ce que vous décrivez.
De façon très approximative, les mots d'une phrase pas trop mal écrite sont délimites par un caractère d'espacement.
D'une /phrase/, on obtiendra une liste de /mots/.

Si on se contente de définir un mot compose par mot qui contient des tirets, pourquoi faire plus complique que le test /'-' in mot/?
Si vous voulez décomposer le mot: mot.split('-') devrait suffire.

Désole si cela ne répond pas a vos questions mais votre truc n'est pas très clair.
- W

**Magaliz** · 10/08/2013, 13h56

Tout d'abord, merci beaucoup de votre réponse.

Mais le problème, c'est que j'ai parmi mes mots des suites de caractères qui contiennent des tirets, mais qui ne sont pas des mots. (par exemple "-->")
alors si je teste juste s'il y a un tiret, ça ne va pas.
De plus, mes mots ne sont pas toujours séparés par des espaces :
(par exemple "l'écrevisse") et ils ne sont pas exclusivement constitués de caractères alphanumériques, (par exemple: "sèche-linge" ou "fin.", ou encore "ensuite,")
Je suis désolée, si je ne suis pas claire, mais pouvez-vous me dire ce que vous ne comprenez pas pour que j'essaie d'éclaircir mes explications?

Sinon, je peux vous montrer le morceau de code que j'ai fait, ce sera peut-être plus clair?

**mont29** · 10/08/2013, 14h29

On pourrait utiliser les regex, comme ceci par exemple*:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
>>> re.findall(r"(?:(?<=\W)|^)((?:\w|(?<=\w)-(?=\w))+)(?=\W?)", "l’été<!--, c’est-à-dire l’estivale saison-->")
['l', 'été', 'c', 'est-à-dire', 'l', 'estivale', 'saison']

\w désigne un caractère “lettre”, \W tout ce qui n’est pas \w. Quand aux (?<=foo) et (?=bar), ce sont des lookbehind/lookahead, ils vérifient que le caractère courant est bien précédé et/ou suivi des motifs spécifiés…

**wiztricks** · 10/08/2013, 15h44

Salut,

Une page HTML est un document semi-structure contenant du texte (qui vous intéresse) et des tas d'information de formatage (qui ne vous intéressent peut être pas). Si vous étiez capable d'en extraire facilement le "texte", votre problème serait grandement simplifie: car plus de parasites a traiter...

Comme vous n’êtes pas la première ni la seule a être intéressée par l'extraction du texte contenu dans une page Web, vous avez, a disposition des librairies telle que BeautifoulSoup qui font cela très bien: soup.get_text() retourne le texte de la page...

Vous pourrez ensuite compter les mots ou la donner a manger a NLTK pour en sortir un ensemble de "tags" qui vous permettront de savoir qui, quand, ou quoi,...

- W

**Magaliz** · 12/08/2013, 14h32

Je vous remercie de m'avoir répondu, j'ai essayé BeautifulSoup, mais ça ne marche pas du tout, alors je suis restée sur la regexp de Mont29, qui fonctionne... A part pour un cas : celui de "à", probablement pour une raison d'encodage... Donc j'ai fait une condition en plus:

coupe = re.split(" |'",ligne)
for w in coupe:
find = re.findall(r"(?:(?<=\W)|^)((?:\w|(?<=\w)-(?=\w))+)(?=\W?)", w)
find2 = re.findall(u"à", w)
if find:
nbr_mots += 1
elif find2:
nbr_mots += 1
else:
print "non compté:", w

Le seul souci, c'est que ça me compte parfois des mots qui ne devraient pas... Mais comme ce sont des lignes qui ne contiennent pas de trucs qui m'intéressent, ça me va.
Donc merci à tous ceux qui ont essayé de m'aider, grâce à vous je peux avancer dans mon projet. Encore MERCI!!!

Compter les mots, même les composés

Python

Vue hybride

Discussions similaires

Partager

Partager