IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

repérer le mot qui revient le plus dans un texte


Sujet :

Python

  1. #1
    Candidat au Club
    Homme Profil pro
    Non référencé
    Inscrit en
    Juillet 2017
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Non référencé

    Informations forums :
    Inscription : Juillet 2017
    Messages : 8
    Points : 3
    Points
    3
    Par défaut repérer le mot qui revient le plus dans un texte
    Bonjour à tous, je souhaiterais créer un petit script dont le but serait de repérer quel/quels est/sont le(s) mot(s) (marre des marques du pluriel) qui sont les plus présents dans un texte, et de conserver évidemment les résultats soit sous forme d'une variable que le programme pourrait réutiliser par la suite (ex : comparer la fréquence d'apparitions d'un mot dans deux textes différents), ou encore dans un fichier texte...

    N'ayant rien trouvé après quelques recherches, je me permet de faire appel à vos conseils, en rappelant que je ne suis pas très expérimenté

  2. #2
    Membre habitué Avatar de racine carrée
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2018
    Messages
    156
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2018
    Messages : 156
    Points : 137
    Points
    137
    Par défaut
    Salut,
    voici un code qui renvoie la liste de tous les mots du texte (d'un fichier .txt) avec leur nombre de répétions.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    fichier=open("C:/Users/.../Documents/test.txt") # (attention à mettre des / ou des \\)
    lignes=fichier.readlines()
    texte=''.join(lignes)
    mots=texte.split()
    repetitions=[]
    for mot in mots:
        dedans=0
        for repet in repetitions: #on regarde si le mot est déjà dans la listes des mots répétés (repetion)...
            if repet[0]==mot: # ...si ce mot est déjà dans répétions, on augmente son nombre d’apparitions de 1
                repet[1]+=1
                dedans=1
                break
        if dedans==0: # ... et s'il n'est pas déjà dedans, on le rajoute et on règle son nombre d'apparitions à 1.
            repetitions.append([mot,1])
    print(repetitions)
    fichier.close()

  3. #3
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Salut,

    Citation Envoyé par UVision Voir le message
    N'ayant rien trouvé après quelques recherches, je me permet de faire appel à vos conseils, en rappelant que je ne suis pas très expérimenté
    "texte" et "mots" voilà qui mérite d'être défini pour savoir s'il faut utiliser un engin comme NLTK ou si un simple dictionnaire suffirait (si vous ne savez pas ce qu'est un dictionnaire Python: ouvrez un tuto).
    Après si on veut écrire çà avec Python, on préférera utiliser collections.Counter un truc comme:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    from collections import Counter
    with open('fichier.txt') as f:
           c = Counter(f.read().split())
    print(c.most_common())
    devrait le faire.
    note: dans ce cas, on a une définition assez faible de ce qu'est un "mot".

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  4. #4
    Candidat au Club
    Homme Profil pro
    Non référencé
    Inscrit en
    Juillet 2017
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Non référencé

    Informations forums :
    Inscription : Juillet 2017
    Messages : 8
    Points : 3
    Points
    3
    Par défaut
    Merci pour vos réponses, je vais essayer votre script racine carrée, et par mot je voulais parler d'une suite de lettres compréhensibles pour un être humain, mais cela peut être tout et n'importe quoi comme "cornichon", "moutarde", "je", "il", donc à priori pas besoin d'une bibliothèque spéciale...

  5. #5
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 035
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 035
    Points : 8 400
    Points
    8 400
    Par défaut
    salut,

    Citation Envoyé par UVision Voir le message
    Merci pour vos réponses, je vais essayer votre script racine carrée, et par mot je voulais parler d'une suite de lettres compréhensibles pour un être humain, mais cela peut être tout et n'importe quoi comme "cornichon", "moutarde", "je", "il", donc à priori pas besoin d'une bibliothèque spéciale...
    et "aujourd'hui" ça doit compter pour 1 ou 2 mots ("aujourd" et "hui") ? même question pour "après-midi", "quelqu'un", "arc-en-ciel", "peut-être" etc.

    en clair, si on veut considèrer "aujourd'hui" comme un seul mot, il faut utiliser un tokenizer lexical plus complexe que juste .split(), on en trouve effectivement dans les usines à gaz comme NLTK ou spaCy, mais on peut aussi bien trouver un tokenizer indépendant ou en coder un soi-même rapidement (c'est l'affaire de 20 lignes de code et un dico de mots composés en gros)

  6. #6
    Membre habitué Avatar de racine carrée
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2018
    Messages
    156
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2018
    Messages : 156
    Points : 137
    Points
    137
    Par défaut
    Si on veut décomposer selon les - , on fait un split(), puis un split('-') sur chaque élément de la liste obtenue et on regroupe chaque sous listes dans une seule liste.

  7. #7
    Candidat au Club
    Homme Profil pro
    Non référencé
    Inscrit en
    Juillet 2017
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Non référencé

    Informations forums :
    Inscription : Juillet 2017
    Messages : 8
    Points : 3
    Points
    3
    Par défaut
    Merci pour vos réponses Effectivement, "aujourd'hui" devrait par exemple être considéré comme un seul mot, mais après quelques tests, le script de wiztricks en prend bien compte.

  8. #8
    Membre habitué Avatar de racine carrée
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2018
    Messages
    156
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 23
    Localisation : France, Maine et Loire (Pays de la Loire)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2018
    Messages : 156
    Points : 137
    Points
    137
    Par défaut
    Merci pour vos réponses Effectivement, "aujourd'hui" devrait par exemple être considéré comme un seul mot, mais après quelques tests, le script de wiztricks en prend bien compte.
    En effet, son code utilise le module collections, qui fait le même travail (autant utiliser les modules plutôt que de reprogrammer tout soi-même !)

Discussions similaires

  1. Réponses: 0
    Dernier message: 29/06/2011, 10h50
  2. Site qui n'apparaît plus dans les pages de recherche Google
    Par maincoon dans le forum Référencement
    Réponses: 6
    Dernier message: 29/05/2011, 14h33
  3. calendar qui ne reagit plus dans gridview
    Par igorzup dans le forum Framework .NET
    Réponses: 2
    Dernier message: 04/06/2009, 10h46
  4. [RegEx] highlight d'un mot qui n'est PAS dans un tag html.
    Par FMaz dans le forum Langage
    Réponses: 5
    Dernier message: 22/03/2006, 14h07
  5. Renvoyer la chaine qui revient le plus souvent
    Par yoshï dans le forum Linux
    Réponses: 3
    Dernier message: 06/01/2006, 19h50

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo