IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Python 3: extraction de dates àpd expressions régulières


Sujet :

Python

  1. #1
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Juillet 2018
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 27
    Localisation : Belgique

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Juillet 2018
    Messages : 4
    Points : 5
    Points
    5
    Par défaut Python 3: extraction de dates àpd expressions régulières
    Bonjour,
    J'aimerais pouvoir extraire des dates (en anglais) d'un texte. Le problème est que les dates sont du genre: September 2014, in 2018, the begin of the Septembrer, etc. Pour extraire des dates telles que 1995, 13.03.98, j'utilise des expressions régulières eta fonctionne mais je ne vois pas comment faire lorsque ce sont des mots.. J'avais pensé à faire une sorte de liste et ensuite de concaténer cette liste avec des expressions régulières mais dans la pratique je vois pas trop comment faire surtout que je dois boucler ça.. Est-ce que quelqu'un aurait une solution? :)
    Merci beaucoup!!!

  2. #2
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 241
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 241
    Points : 36 698
    Points
    36 698
    Par défaut
    Salut,

    Citation Envoyé par roline Voir le message
    Le problème est que les dates sont du genre: September 2014, in 2018, the begin of the Septembrer, etc.
    Le langage naturel est bien plus compliqué que ce qu'on peut analyser par des expressions régulières.... mais vous avez des bibliothèques comme nltk, qui avec de bons taggers, sauraient faire. Ceci dit, çà va vous demander du temps pour apprendre à utiliser tout çà.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    Juillet 2018
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 27
    Localisation : Belgique

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Juillet 2018
    Messages : 4
    Points : 5
    Points
    5
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Salut,



    Le langage naturel est bien plus compliqué que ce qu'on peut analyser par des expressions régulières.... mais vous avez des bibliothèques comme nltk, qui avec de bons taggers, sauraient faire. Ceci dit, çà va vous demander du temps pour apprendre à utiliser tout çà.

    - W
    J'ai déjà utilisé nltk pour tokenizer donc je comprends un peu ce module. Mais je ne vois pas comment un tagger pourrait solutionner mon problème? :-)

  4. #4
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 035
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 035
    Points : 8 400
    Points
    8 400
    Par défaut
    salut,

    Citation Envoyé par roline Voir le message
    J'ai déjà utilisé nltk pour tokenizer donc je comprends un peu ce module. Mais je ne vois pas comment un tagger pourrait solutionner mon problème? :-)
    je crois que c'est au moment de la reconnaissance d'entités nommées (NER) que certaines vont être catégorisées en tant que dates, personnes, lieux etc.

    le NER tagging repose en général sur une ou plusieurs techniques, dont les regex (ex: r'dans (\d|quelques|plusieurs|une poignée de) (?:secondes|minutes|heures|jours|mois|années)'), les dictionnaires dans lesquels on check si l'unité lexicale existe ou non, éventuellement en prenant soin de traiter les spécificités comme les contractions ("avant Jésus Christ", "avant JC", "av. JC.", etc.), voire carrément du machine learning en établissant un modèle (statistique donc) sur la base d'un corpus préalablement annoté

    pour reprendre tes exemples, "September 2014", "in 2018", "13.03.98" c'est facile de faire des regex qui vont matcher correctement, méfiance quand même concernant "1995", si c'est suivi d'un symbole "€" ce n'est probablement pas une date
    à ça on pourra ajouter tous les compléments de temps (en gros tout ce qui suit "at" ou "when" par exemple), qu'on récupère grâce à un étiquetage morphosyntaxique classique (POS tagging)
    il est probable qu'on puisse faire la même chose pour le cas de "the begin of the September", quand on a "September" qu'on sait être un mois, on peut vérifier ce qui dans la phrase le référence "the beginning of", le parsing de dépendances pourra aider


Discussions similaires

  1. [WD16] Extraction de souschaine avec Expressions régulières
    Par mogwai162 dans le forum WinDev
    Réponses: 20
    Dernier message: 24/05/2012, 12h00
  2. extraction des groupe des expression régulières
    Par TaymouWan dans le forum C#
    Réponses: 4
    Dernier message: 22/05/2009, 13h27
  3. [RegEx] expression régulière - date
    Par dark_demon dans le forum Langage
    Réponses: 15
    Dernier message: 23/06/2006, 13h14
  4. [Expression régulière] - Extraction d'un email
    Par kirsoul dans le forum Langage
    Réponses: 2
    Dernier message: 23/05/2006, 15h28
  5. [RegEx] expression régulière et date
    Par r-zo dans le forum Langage
    Réponses: 4
    Dernier message: 15/11/2005, 14h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo