Quels outils pour ma requête de text mining ?

**adevy** · 26/12/2015, 23h13

Bonjour,

Je m'interesse de puis un certain temps au data mining et commence à en comprendre, dans un certaine mesure, les aspects théoriques.

Je cherche désormais à passer à l'application concrète.

J'ai plusieurs centaines de mégaoctets de textes (essentiellement sous forme PDF).

Ce texte est truffé de références. Les référence sont de type : nom, date, ID. Mais parfois, il arrive qu'il n'y ait pas cet ordre (donc date, ID, nom par exemple) ou qu'il n'y ait pas l'intégralité de ces éléments : que nom et date, ou ID tout seul.

J'ai extrait manuellement une liste d'une centaine de références (donc de type nom, date, ID ou nom, date).

Je souhaite passer par un outil d'apprentissage non supervisé (clustering) qui, en "apprenant" depuis ma liste d'une centaine de référence, serait en mesure de m'extraire la totalité des références dans la centaine de mégaoctets de fichiers concernés.

D'ou ma question, quels outils utiliser ? Idéalement avec une documentation développée ? Comment mettre en place concrètement la solution que je souhaite réaliser ?

Pensez-vous qu'il est possible de réaliser cela avec Azure Machine Learning ?

Je vous remercie pour vos retours.

Adevy.

**stendhal666** · 31/12/2015, 14h27

Je ne suis pas certain que ce soit un job qui nécessite du machine learning. Si une référence est un sous-ensemble de l'ensemble { ID, nom, date } et que chaque élément de l'ensemble a une forme régulière, tu n'as qu'un nombre restreint de formes régulières à tester. Donc il me semble que le plus simple est de lancer une recherche d'expression régulière sur le texte.

Si ensuite tu te rendais compte qu'il y a beaucoup de faux positifs, tu pourrais faire un classificateur, un peu comme pour des spams, pour les utiliser. Mais assure-toi d'en avoir besoin quand même!

Quels outils pour ma requête de text mining ?

Statistiques, Data Mining et Data Science

Discussions similaires

Partager

Partager