IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Quels outils pour ma requête de text mining ?


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Juillet 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Juillet 2014
    Messages : 5
    Points : 4
    Points
    4
    Par défaut Quels outils pour ma requête de text mining ?
    Bonjour,

    Je m'interesse de puis un certain temps au data mining et commence à en comprendre, dans un certaine mesure, les aspects théoriques.

    Je cherche désormais à passer à l'application concrète.

    J'ai plusieurs centaines de mégaoctets de textes (essentiellement sous forme PDF).

    Ce texte est truffé de références. Les référence sont de type : nom, date, ID. Mais parfois, il arrive qu'il n'y ait pas cet ordre (donc date, ID, nom par exemple) ou qu'il n'y ait pas l'intégralité de ces éléments : que nom et date, ou ID tout seul.

    J'ai extrait manuellement une liste d'une centaine de références (donc de type nom, date, ID ou nom, date).

    Je souhaite passer par un outil d'apprentissage non supervisé (clustering) qui, en "apprenant" depuis ma liste d'une centaine de référence, serait en mesure de m'extraire la totalité des références dans la centaine de mégaoctets de fichiers concernés.

    D'ou ma question, quels outils utiliser ? Idéalement avec une documentation développée ? Comment mettre en place concrètement la solution que je souhaite réaliser ?

    Pensez-vous qu'il est possible de réaliser cela avec Azure Machine Learning ?

    Je vous remercie pour vos retours.

    Adevy.

  2. #2
    Membre chevronné

    Homme Profil pro
    Développeur informatique
    Inscrit en
    Avril 2013
    Messages
    610
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Finance

    Informations forums :
    Inscription : Avril 2013
    Messages : 610
    Points : 1 878
    Points
    1 878
    Billets dans le blog
    21
    Par défaut
    Je ne suis pas certain que ce soit un job qui nécessite du machine learning. Si une référence est un sous-ensemble de l'ensemble { ID, nom, date } et que chaque élément de l'ensemble a une forme régulière, tu n'as qu'un nombre restreint de formes régulières à tester. Donc il me semble que le plus simple est de lancer une recherche d'expression régulière sur le texte.

    Si ensuite tu te rendais compte qu'il y a beaucoup de faux positifs, tu pourrais faire un classificateur, un peu comme pour des spams, pour les utiliser. Mais assure-toi d'en avoir besoin quand même!

Discussions similaires

  1. Réponses: 5
    Dernier message: 20/01/2010, 03h12
  2. Quel outil pour diagrame UML pour Java ?
    Par yup dans le forum Outils
    Réponses: 5
    Dernier message: 27/08/2004, 16h24
  3. [Revue de code] Quels outils pour de grosses applis?
    Par franckR dans le forum Choisir un environnement de développement
    Réponses: 1
    Dernier message: 21/03/2004, 10h03
  4. Quel Outil pour les applis Industrielles ET bases de données
    Par ThierryAIM dans le forum Débats sur le développement - Le Best Of
    Réponses: 8
    Dernier message: 23/04/2003, 09h14
  5. Quel outil pour du développement Client/Serveur (Win XP) ?
    Par jey_bonnet dans le forum Débats sur le développement - Le Best Of
    Réponses: 5
    Dernier message: 02/11/2002, 14h57

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo