Bonjour
J'ai un fichier roman.txt
Je voudrais créer un lexique à partir du vocabulaire utilisé dans le roman (lexique.txt).
Il faut donc:
1) extraire chaque mot du roman,
2) garder une seule fois un mot qui serait réutilisé plusieurs fois dans le roman,
3) en faire une liste plaçant les mots les uns au-dessus des autres,
4) dans l'ordre alphabétique dans un fichier "lexique.txt"
Qu'est-ce qu'il est préférable d'utiliser: awk, ou sed? Le fichier est très volumineux.
Je remplacerais déjà chaque espace par un saut de ligne. Pas trop compliqué avec les deux commandes.
Ensuite, je chercherais et supprimerais les doublons. Là je ne sais pas trop comment.
Enfin je mettrais dans l'ordre alphabétique. Et là plus du tout...
Je vous remercie.
Celano
Partager