Enlever les redondances des listes de mots

**daniel1985** · 21/10/2015, 09h55

Bonjour à tous,

J'ai des fichiers contenant chacun des dizaines de milliers de mots simples et complexes. Nous avons remarqué que quelques mots se répètent plusieurs fois mais qui non qu'un seul sens sémantique dans notre cas (Par exemple, dans l'un des fichiers on trouve plein des Préfectures ( des différentes villes), Hôtels et parcs nationale.....). Du coup, notre idée est d'enlever ces redondances et de garder que le mot qui se répètent. Par exemple, pour les préfectures ( Préfecture de Paris, Préfecture de nantes... ----> on ne gardera que le mot Préfecture, pareil pour les autres comme Hôtels et Parcs).

Avez-vous une idée comment le faire, s'il y-a une fonction prédéfinie ou api qui peut m'aider à le faire d'une manière efficace puisque chaque fichier contient des dizaines de milliers de mots..

parfois le mot qui se répetent est complexe: par exemple le mot parc national (parc national de clichy, parc national de nanterre,...) --> pour cet exemple nous devons garder que le mot parc national....

Merci d'avance !

**joel.drigo** · 21/10/2015, 11h33

Salut,

Il y a 2 approches :

l'approche sémantique : c'est un domaine qui a ses spécialistes dont je ne fais pas partie (il existe de outils qui font d'ailleurs ces regroupements).
l'approche que je qualifirais de naïve

Déjà je commencerais par définir une notion de motif (à base de regexp et/ou de tests divers), qui permetrait d'une part de reconnaître un motif (par exemple "Prefecture(s) (de <quelquechose>")) et d'y associer l'expression à conserver (ici "Préfecture"). Bien sûr, il faut inventorier toutes les expressions qu'on veut reconnaître et ça peut être fastidieux suivant le nombre.
Mais sans passer par une analyse sémantique, la reconnaissance de motif risque de devenir une usine à gaz avec plein de tests.

Ensuite, parser le texte, en cherchant ce qui correspond à un motif : au lieu d'obtenir une liste de String (mots), on cherche à obtenir une liste d'objets, qui sont soit des String (les mots qui correspondent à aucun motif), soit une expression correspondant à un motif (donc en gros, une abstraction(ou interface) avec 2 implémentations concrètes sous forme de wrapper. Ensuite, un dédoublonnage (les wrappers de String se dédoublonnes sur égalité des mots, les autres sur l'égalité d'un identifiant de motif) permet de ne conserver qu'une seule occurrence de chaque.

**daniel1985** · 21/10/2015, 16h40

Je vous remercie pour votre réponse rapide.

Mais la taille et le nombre des fichiers est énorme et c'est vraiment trop difficile de parser manuellement tous les fichiers pour identifier les mots (motifs) qui se répètent et ainsi définir des regex particuliers..

y' t-il un autre moyen ou une autre idée s'il vous plaît ?

**joel.drigo** · 21/10/2015, 18h09

En gros tu veux pouvoir entrer n'importe quel texte qui parle de n'importe quoi et que le programme soit capable de reconnaître des groupes de mots comment étant similaires sémantiquement et en extraire une version synthétique ! On touche à la linguistique-là, et tout un tas de techniques et algorithmes, que je n'ai fait qu'aborder lors de mes études, mais qui sont un domaine très spécialisé, qui n'a pas spécifiquement plus de rapport avec Java ou un autre langage.
Existe-t-il des programmes qui font ça, qui proposent services ou API utilisables en Java. Oui : j'en ai intégré un (moteur de recherche et d'analyse sémantique) mais il est payant (et cher), donc je ne le citerais pas ici. En existe-t-il des gratuits ? Je n'en sais rien.

En ce qui concerne le volume, il n'y a pas de secret : qu'il y ait 5 fichiers ou 5 millions, il faudra tous les traiter.

**tac.p** · 21/10/2015, 23h19

Salut,

Je vais commencer par une remarque un peu contrariante:
A supposer que tu as un algorithme qui fait comme tu dis: quand il trouve plusieurs parc nationaux: "parc national" de clichy et "parc national" de nanterre il va garder parc national, car c'est ce qui est commun, à ce stade il me semble que la partie commune va jusqu'à "parc national de ", du il va avoir du mal à s'arrêter à "parc national". Ensuite dans tes donnés, si tu as parc national de nanterre, il est fort probable que tu ait aussi piscine de nanterre, du coup l'algorithme ne risque-t-il pas de trouver que nanterre se répète, et que c'est donc nanterre qu'il faut garder...

Ensuite, je ne suis pas convaincu que ton salut vienne du forum java, car là ton problème est un problème de math et la façon de le traiter est certainement à trouver du côté de ces mêmes maths. Mais maigre connaissance sur le sujet m'inciteraient à regarder les arbres utilisés pour faire du pattern matching et des recherches de séquence. J'ai oublié le nom de ces arbres mais on m'en avais expliqué la technique en m'expliquant que dans un contexte Big Data cette technique pouvait être utilisée pour les analyses de textes. Ces arbres ressemblent aux arbres lexicographiques. Mais là google va être ton ami car à mon avis une petite étude bibliographique s'impose.

bon courage,

Pierre

Enlever les redondances des listes de mots

Java

Discussions similaires

Partager

Partager