IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

méthode de comptage de lignes dans un fichier


Sujet :

Python

  1. #1
    Membre habitué
    Inscrit en
    Avril 2007
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 8
    Par défaut méthode de comptage de lignes dans un fichier
    Bonjour,

    J'ai un fichier énoooorme (6 millions de lignes) qui vient d'une base de donnée, et chaque ligne se compose d'un mot.

    Exemple:
    bla
    bla
    blop
    blip
    toto
    test

    Je voudrais savoir quelle est la meilleure méthode pour parser ce fichier rapidement (je peux le trier en amont avec un "cat fichier | sort" sans problème)
    afin d'obtenir le nombre d'occurences pour chaque mot.
    (En gros j'aurai un output du style:
    bla: 2
    blop: 1
    blip: 1
    etc...)

    Comme je suis débutant, je suis sûr que ça ne prend que quelques lignes de code Python mais j'aimerais que ce soit plutôt rapide si possible...

    Merci de vos conseils/aide :-)

  2. #2
    Membre éprouvé Avatar de anthyme
    Homme Profil pro
    Inscrit en
    Mars 2004
    Messages
    1 559
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mars 2004
    Messages : 1 559
    Par défaut
    euh merde j ai mal lu la question attend je te pond une bonne réponse ^^

  3. #3
    Membre éprouvé Avatar de anthyme
    Homme Profil pro
    Inscrit en
    Mars 2004
    Messages
    1 559
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mars 2004
    Messages : 1 559
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    f = open("myfile",'r')
     
    keys = {}
     
    for line in f.readlines():
         if line in keys:
            keys[line] += 1
         else:
            keys[line] = 1
     
    print keys
    à testé je le fait dans la boite du forum ^^

  4. #4
    Membre habitué
    Inscrit en
    Avril 2007
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 8
    Par défaut
    ok ça marche... c'est juste imbuvable de faire un print à la fin, mais je vais me débrouiller pour l'output ;-)

    Merci encore :-)

  5. #5
    Membre éprouvé Avatar de anthyme
    Homme Profil pro
    Inscrit en
    Mars 2004
    Messages
    1 559
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mars 2004
    Messages : 1 559
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    for key in keys:
        print key + " : " + keys[key]
    voila

  6. #6
    Membre habitué
    Inscrit en
    Avril 2007
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 8
    Par défaut
    oui c'est exactement ça.

    Merci beaucoup, ça m'a permis de mieux comprendre ce type de listes. :-)

  7. #7
    Membre éprouvé Avatar de anthyme
    Homme Profil pro
    Inscrit en
    Mars 2004
    Messages
    1 559
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mars 2004
    Messages : 1 559
    Par défaut
    Il s'agit plus precisement d un dictionnaire (table de hashage pour etre plus precis)
    cela fonctionne de cette façon :
    un ensemble de clefs (unique) pointant vers une valeur

    Voila bon apprentissage

  8. #8
    Membre émérite

    Profil pro
    Inscrit en
    Août 2004
    Messages
    723
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2004
    Messages : 723
    Par défaut
    Juste une chose à ajouter (vu que tu as parlé de 6 millions de lignes), c'est que readlines stocke le contenu du fichier en mémoire sous forme de liste, donc il vaut mieux utiliser un itérateur, à partir de Python 2.4 tu peux faire
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    f = open("myfile",'r')
     
    keys = {}
     
    for line in f:
         if line in keys:
            keys[line] += 1
         else:
            keys[line] = 1
     
    for key in keys:
        print key + " : " + keys[key]

  9. #9
    Membre expérimenté
    Profil pro
    Étudiant
    Inscrit en
    Avril 2007
    Messages
    181
    Détails du profil
    Informations personnelles :
    Âge : 37
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2007
    Messages : 181
    Par défaut
    Vu qu'on doit traiter un très grand nombre de données, je propose cette version, qui je pense sera un peu plus rapide (et qui fait aussi sauter les retours à la ligne à l'affichage) :


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    f = open("myfile", 'r')
    dic = {}
    for ligne in f:
        dic[ligne] = dic.get(ligne, 0) + 1
     
    for i in dic:
        print "%s : %d" % (i.strip(), dic[i])

  10. #10
    Membre émérite
    Avatar de GnuVince
    Profil pro
    Développeur informatique
    Inscrit en
    Avril 2004
    Messages
    679
    Détails du profil
    Informations personnelles :
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Avril 2004
    Messages : 679
    Par défaut
    Voici comment faire (l'output sera ordonné du mot le plus courant au moins courant):

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
     
    import operator
     
    f = open('fichier')
    words = {}
     
    for line in f:
        words[line] = words.get(line, 0) + 1
    f.close()
     
    word_list = words.items()
    word_list.sort(key=operator.itemgetter(1))
    word_list.reverse()
     
    for word, count in word_list:
        print '%s: %s' % (word, count)

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Comptage de lignes dans un fichier xsd
    Par sylvain.l dans le forum Valider
    Réponses: 1
    Dernier message: 24/08/2010, 18h57
  2. [FSO] Effacer une ligne dans un fichier
    Par Johnbob dans le forum ASP
    Réponses: 4
    Dernier message: 30/05/2007, 16h23
  3. [Fichier] Nombre de ligne dans un fichier texte
    Par NewSer dans le forum Entrée/Sortie
    Réponses: 7
    Dernier message: 10/11/2004, 16h58
  4. Réponses: 2
    Dernier message: 02/03/2004, 19h38
  5. Supprimer une ligne dans un fichier
    Par sbeu dans le forum Langage
    Réponses: 3
    Dernier message: 13/05/2003, 10h30

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo