IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Compter le nombre d’occurrences de chaque mot d'un texte.


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre Expert
    Homme Profil pro
    Inscrit en
    Octobre 2011
    Messages
    2 910
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2011
    Messages : 2 910
    Par défaut Compter le nombre d’occurrences de chaque mot d'un texte.
    Salut,

    Compter le nombre d’occurrences de chaque mot d'un texte...

    J'ai fait ça :

    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    import re
     
    texte = "Salut tout le monde, c'est un texte pour tester le code... Salut tout le monde, c'est un texte pour tester le code..."
    div = re.split('[^a-zA-Z]', texte)
    dico = {}
     
    for mot in div:
        if mot != "":
            if mot in dico:
                dico[mot] += 1
            else:
                dico[mot] = 1
    print(dico)

    Peut-on améliorer le code ?

  2. #2
    Membre Expert
    Homme Profil pro
    Inscrit en
    Octobre 2011
    Messages
    2 910
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2011
    Messages : 2 910
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Ce problème de comptage d’occurrences est tellement récurent que Python à collections.Counter.
    Bon ben j'ai regardé le lien et justement je l'applique ici :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    from collections import Counter
    import re
     
    texte = "Salut tout le monde, c'est un texte pour tester le code... Salut tout le monde, c'est un texte pour tester le code..."
    div = re.split('[^a-zA-Z]', texte)
    cnt = Counter()
     
    for mot in div:
        if mot != "":
            cnt[mot] += 1
    print(cnt)
    Je ne sais pas si c'est mieux...

  3. #3
    Membre Expert
    Homme Profil pro
    Inscrit en
    Octobre 2011
    Messages
    2 910
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2011
    Messages : 2 910
    Par défaut
    Waw je viens de voir encore une autre manière plus concise :

    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    from collections import Counter
    import re
     
    texte = "Salut tout le monde, c'est un texte pour tester le code... Salut tout le monde, c'est un texte pour tester le code..."
     
    mots = re.findall(r'\w+', texte)
    print(Counter(mots))

  4. #4
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 835
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 835
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par Beginner. Voir le message
    Waw je viens de voir encore une autre manière plus concise :
    En fait tout dépend ton but. Si c'est pour un projet/boulot/truc officiel alors oui tu as intérêt à utiliser ce qui existe déjà sans avoir à réinventer le fil à couper l'eau chaude.

    Mais si c'est pour exercer ta logique et affûter ton intuitivité, alors là tu as plus intérêt à tout faire toi-même

    Citation Envoyé par Beginner. Voir le message
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    mots = re.findall(r'\w+', texte)
    print(Counter(mots))
    print(Counter(re.findall(r'\w+', texte)))
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  5. #5
    Membre Expert
    Homme Profil pro
    Inscrit en
    Octobre 2011
    Messages
    2 910
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2011
    Messages : 2 910
    Par défaut
    Merci.
    Effectivement tu as fait encore plus concis...

    On pourrait faire ça aussi :
    print(Counter(re.findall(r'\w+', "Salut tout le monde, c'est un texte pour tester le code... Salut tout le monde, c'est un texte pour tester le code...")))...
    LOL

  6. #6
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 835
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 835
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Beginner. Voir le message
    On pourrait faire ça aussi :
    print(Counter(re.findall(r'\w+', "Salut tout le monde, c'est un texte pour tester le code... Salut tout le monde, c'est un texte pour tester le code...")))...
    Oui mais non. Philosophiquement il vaut mieux séparer les datas et leur traitement. Le texte peut très bien provenir de sources multiples (fichier, réseau, etc) tandis que le traitement lui reste toujours le même.
    C'est le point de départ de la programmation MVC...
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  7. #7
    Expert confirmé
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    Juillet 2006
    Messages
    4 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Juillet 2006
    Messages : 4 062
    Par défaut
    Bonsoir,

    Niveau conception j'aime bien faire à la C,

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    texte = "Salut tout le monde, c'est un texte pour tester le code... Salut tout le monde, c'est un texte pour tester le code..."
    counter = [0 for _ in range(0, 256)]
    for char in bytearray(texte, 'ascii'):
        counter[char] += 1
     
    for ind, n in enumerate(counter):
        if n:
            print('il y a {} {}'.format(n, chr(ind)))
    Biensûr, si on veut éviter de le faire soi-même, quoi de plus efficace que Counter.

  8. #8
    Membre Expert
    Homme Profil pro
    Inscrit en
    Octobre 2011
    Messages
    2 910
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2011
    Messages : 2 910
    Par défaut
    Salut,

    Merci, le programme est court mais il a l'air de compter le nombre de lettres et non le nombres de mots, non ?

  9. #9
    Rédacteur

    Avatar de danielhagnoul
    Homme Profil pro
    Étudiant perpétuel
    Inscrit en
    Février 2009
    Messages
    6 389
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 74
    Localisation : Belgique

    Informations professionnelles :
    Activité : Étudiant perpétuel
    Secteur : Enseignement

    Informations forums :
    Inscription : Février 2009
    Messages : 6 389
    Billets dans le blog
    125
    Par défaut


    Ma version (certainement perfectible par -W , car je suis toujours dans les débuts) pour traiter un texte accentué et ponctué :

    Code Python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    from collections import Counter
    import re
     
    texte = '''
        C'est l'évadé, du Névada.
        Qui s'évada dans, la vallée
        Dans la vallée, du Névada ?
        Qu'il dévala, pour s'évader
        Sur un vilain vélo volé !
        Qu'il a volé, dans une villa
        Et le valet, qui fut volé.
        Vit l'évadé, qui s'envola
        '''
     
    # lowercase
    phrase = texte.lower()
    # trouve les éléments du texte
    z = re.findall('[a-zA-Z\u00C0-\u00FF]*', phrase)
    # élimine les espaces et les éléments courts
    lst = [x for x in z if x != '' and len(x) > 2]
    # crée un dict contenant les mots et la fréquence des mots
    cnt = Counter(lst)
    # version lisible
    for key, value in cnt.items():
        print('{} : {}'.format(key, value))
     
    '''
    est : 1
    évadé : 2 
    névada : 2
    qui : 3
    évada : 1
    dans : 3
    vallée : 2
    dévala : 1
    pour : 1
    évader : 1
    sur : 1
    vilain : 1
    vélo : 1
    volé : 3
    une : 1
    villa : 1
    valet : 1
    fut : 1
    vit : 1
    envola : 1
    '''

    Blog

    Sans l'analyse et la conception, la programmation est l'art d'ajouter des bogues à un fichier texte vide.
    (Louis Srygley : Without requirements or design, programming is the art of adding bugs to an empty text file.)

  10. #10
    Rédacteur

    Avatar de danielhagnoul
    Homme Profil pro
    Étudiant perpétuel
    Inscrit en
    Février 2009
    Messages
    6 389
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 74
    Localisation : Belgique

    Informations professionnelles :
    Activité : Étudiant perpétuel
    Secteur : Enseignement

    Informations forums :
    Inscription : Février 2009
    Messages : 6 389
    Billets dans le blog
    125
    Par défaut
    Version triée :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    from collections import Counter
    from re import findall
    import locale
     
    locale.setlocale(locale.LC_ALL, ('fr_FR', 'UTF-8'))
     
    texte = '''
        C'est l'évadé, du Névada.
        Qui s'évada dans, la vallée
        Dans la vallée, du Névada ?
        Qu'il dévala, pour s'évader
        Sur un vilain vélo volé !
        Qu'il a volé, dans une villa
        Et le valet, qui fut volé.
        Vit l'évadé, qui s'envola
        '''
     
    phrase = texte.lower()
     
    # \u00C0-\u00D6\u00D8-\u00F6\u00F8-\u00FF can substitute for \u00C0-\u00FF to exclude ×÷
    z = findall('[a-zA-Z\u00C0-\u00D6\u00D8-\u00F6\u00F8-\u00FF]*', phrase)
     
    # dans l'ordre alphabéthique !
    lst = sorted([x for x in z if x != '' and len(x) > 2], key=locale.strxfrm)
     
    cnt = Counter(lst)
    for key, value in cnt.items():
        print('{} : {}'.format(key, value))
     
    '''
    dans : 3
    dévala : 1
    envola : 1
    est : 1
    évada : 1
    évadé : 2
    évader : 1
    fut : 1
    névada : 2
    pour : 1
    qui : 3
    sur : 1
    une : 1
    valet : 1
    vallée : 2
    vélo : 1
    vilain : 1
    villa : 1
    vit : 1
    volé : 3
    '''

    Blog

    Sans l'analyse et la conception, la programmation est l'art d'ajouter des bogues à un fichier texte vide.
    (Louis Srygley : Without requirements or design, programming is the art of adding bugs to an empty text file.)

  11. #11
    Membre Expert
    Homme Profil pro
    Inscrit en
    Octobre 2011
    Messages
    2 910
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Octobre 2011
    Messages : 2 910
    Par défaut
    Merci.

Discussions similaires

  1. Réponses: 0
    Dernier message: 30/03/2018, 10h33
  2. Réponses: 0
    Dernier message: 30/03/2018, 10h26
  3. [XL-2010] VBA - Compter le nombre de fois un mot en fonction de chaque mois.
    Par chdiouc dans le forum Macros et VBA Excel
    Réponses: 5
    Dernier message: 31/01/2017, 06h20
  4. Réponses: 4
    Dernier message: 10/12/2014, 23h56
  5. Compter un nombre de cellule contenant mot "flange"
    Par fmris dans le forum Macros et VBA Excel
    Réponses: 5
    Dernier message: 24/09/2009, 13h48

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo