IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bibliothèques tierces Python Discussion :

[nltk] Lemmatisation file


Sujet :

Bibliothèques tierces Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Femme Profil pro
    Étudiant
    Inscrit en
    Novembre 2016
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2016
    Messages : 24
    Par défaut [nltk] Lemmatisation file
    Bonjour

    Je viens vers vous dans l'espoir de trouver une solution à mon probléme Je voudrais faire la lemmatisation d'un file (un fichier texte txt) en python j'ai fait des teste mais ca ne marche pas je sollicite votre aide svp car cest urgent MeNom : lem.PNG
Affichages : 2014
Taille : 24,9 Korci d'avance

  2. #2
    Expert confirmé

    Homme Profil pro
    Inscrit en
    Octobre 2008
    Messages
    4 307
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Octobre 2008
    Messages : 4 307
    Par défaut
    Salut,

    À la place du dictionnaire et du set utilise plutôt Counter.
    Et splitte ton texte si tu veux le compte des mots.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    >>> import collections
    >>> collections.Counter("Je viens vers vous dans l'espoir de trouver une solution à mon probléme".split())
    Counter({'dans': 1, 'une': 1, 'Je': 1, "l'espoir": 1, 'mon': 1, 'vers': 1, 'trouver': 1, 'à': 1, 'probléme': 1, 'de': 1, 'solution': 1, 'viens': 1, 'vous': 1})

  3. #3
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    salut,

    Citation Envoyé par VinsS Voir le message
    splitte ton texte si tu veux le compte des mots.
    du coup il faut aussi comprendre que la méthode .read() n'est pas adaptée, puisqu'on va se retrouver avec les retours chariots dans le texte, et qu'il faudra également prendre en compte les éventuelles césures, donc qu'il faut envisager de pré-traiter le texte correctement

    par ailleurs je ne suis pas expert du TAL mais de ce que j'ai pu comprendre la seule façon de lemmatiser correctement depuis une autre langue que l'anglais avec nltk (et sans devoir implémenter soi-même tout un barda) c'est de passer par TreeTagger

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    >>> from treetagger import TreeTagger
    >>> tt_fr = TreeTagger(encoding='utf-8', language='french')
    >>> from pprint import pprint
    >>> pprint(tt_fr.tag(u'Mon Dieu, faites que ça marche!'))
    [[u'Mon', u'DET:POS', u'mon'],
     [u'Dieu', u'NOM', u'Dieu'],
     [u',', u'PUN', u','],
     [u'faites', u'VER:pres', u'faire'],
     [u'que', u'KON', u'que'],
     [u'\xe7a', u'PRO:DEM', u'cela'],
     [u'marche', u'NOM', u'marche'],
     [u'!', u'SENT', u'!']]

  4. #4
    Membre averti
    Femme Profil pro
    Étudiant
    Inscrit en
    Novembre 2016
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2016
    Messages : 24
    Par défaut
    salut,

    Merci pour vos réponse.

    @VinsS j'ai testé la solution que vous avez proposé en remplaçant votre phrase ( ("Je viens vers vous dans l'espoir de trouver une solution à mon probléme".split()) par le chemin de mon fichier texte mais ça ne marche pas il me met une erreur il prend pas le contenu de mon fichier texte. Savez vous pourquoi please
    Nom : coun.PNG
Affichages : 1830
Taille : 18,5 Ko

  5. #5
    Membre averti
    Femme Profil pro
    Étudiant
    Inscrit en
    Novembre 2016
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2016
    Messages : 24
    Par défaut
    Salut @BufferBob

    Merci pour la répondre. J'ai eu le méme souci avec Treetagger il prend pas le contenu de mon fichier

  6. #6
    Expert confirmé

    Homme Profil pro
    Inscrit en
    Octobre 2008
    Messages
    4 307
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Octobre 2008
    Messages : 4 307
    Par défaut
    Essaye ceci:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    with open("C:/Troismousquetaires.txt", "r") as inf:
        content = inf.read().replace("\n", " ")
     
    count = collections.Counter(content.split())
    print(count)

Discussions similaires

  1. Réponses: 6
    Dernier message: 30/07/2003, 14h59
  2. passer FILE* en argument d une fonction
    Par Monsieur_Manu dans le forum C
    Réponses: 9
    Dernier message: 10/04/2003, 17h56
  3. [File et Directory ListBox] Soucis de filtre
    Par Mercilius dans le forum Composants VCL
    Réponses: 8
    Dernier message: 04/04/2003, 16h17
  4. A propos des 'File management Functions' de Windows
    Par znaidi dans le forum Windows
    Réponses: 3
    Dernier message: 01/04/2003, 16h01
  5. recupèrer file d'attente d'impression
    Par magic corp. dans le forum Langage
    Réponses: 2
    Dernier message: 25/09/2002, 14h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo