Bonjour à tous,
J'ai des fichiers contenant chacun des dizaines de milliers de mots simples et complexes. Nous avons remarqué que quelques mots se répètent plusieurs fois mais qui non qu'un seul sens sémantique dans notre cas (Par exemple, dans l'un des fichiers on trouve plein des Préfectures ( des différentes villes), Hôtels et parcs nationale.....). Du coup, notre idée est d'enlever ces redondances et de garder que le mot qui se répètent. Par exemple, pour les préfectures ( Préfecture de Paris, Préfecture de nantes... ----> on ne gardera que le mot Préfecture, pareil pour les autres comme Hôtels et Parcs).
Avez-vous une idée comment le faire, s'il y-a une fonction prédéfinie ou api qui peut m'aider à le faire d'une manière efficace puisque chaque fichier contient des dizaines de milliers de mots..
parfois le mot qui se répetent est complexe: par exemple le mot parc national (parc national de clichy, parc national de nanterre,...) --> pour cet exemple nous devons garder que le mot parc national....
Merci d'avance !
Partager