Bonjour,
Je m'interesse de puis un certain temps au data mining et commence à en comprendre, dans un certaine mesure, les aspects théoriques.
Je cherche désormais à passer à l'application concrète.
J'ai plusieurs centaines de mégaoctets de textes (essentiellement sous forme PDF).
Ce texte est truffé de références. Les référence sont de type : nom, date, ID. Mais parfois, il arrive qu'il n'y ait pas cet ordre (donc date, ID, nom par exemple) ou qu'il n'y ait pas l'intégralité de ces éléments : que nom et date, ou ID tout seul.
J'ai extrait manuellement une liste d'une centaine de références (donc de type nom, date, ID ou nom, date).
Je souhaite passer par un outil d'apprentissage non supervisé (clustering) qui, en "apprenant" depuis ma liste d'une centaine de référence, serait en mesure de m'extraire la totalité des références dans la centaine de mégaoctets de fichiers concernés.
D'ou ma question, quels outils utiliser ? Idéalement avec une documentation développée ? Comment mettre en place concrètement la solution que je souhaite réaliser ?
Pensez-vous qu'il est possible de réaliser cela avec Azure Machine Learning ?
Je vous remercie pour vos retours.
Adevy.
Partager