IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Comparer deux fichiers [Python 2.X]


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Inscrit en
    Décembre 2005
    Messages
    41
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 41
    Par défaut Comparer deux fichiers
    Bonjour.
    J'ai deux fichiers Base et Cas
    cas :cas.txt
    base :cas.txt

    J'ai écrit un petit programme pour:
    - comparer ces deux fichiers TXT
    - afficher les lignes similaires
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    # read files
    db_new_cas = open('C:\\.......\\cas', 'r')
    db_src_cas = open('C:\\........\\base', 'r')
     
    # convert files to list
    line_new_cas = db_new_cas.readlines()
    line_src_cas = db_src_cas.readlines()
     
     
    for new in line_new_cas:
    	for src in line_src_cas:
    		if new == src  and new <> "\n":
    			print "----------similaires----------"
    			print new.strip("\n")  
     
    #close files
    db_new_cas.close()
    db_src_cas.close()
    ********
    Proposez-moi des améliorations pour rendre le programme plus simple ou optimal.
    Merci
    Fichiers attachés Fichiers attachés

  2. #2
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 741
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 741
    Par défaut
    Salut,

    Citation Envoyé par zargooo04 Voir le message
    Proposez-moi des améliorations pour rendre le programme plus simple ou optimal.
    Il sera préférable d'(apprendre à) utiliser la bibliothèque difflib ...

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Membre averti
    Inscrit en
    Décembre 2005
    Messages
    41
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 41
    Par défaut
    Merci.
    Aller les programmeurs je cherche d'autres idées.

    Citation Envoyé par wiztricks Voir le message
    Salut,



    Il sera préférable d'(apprendre à) utiliser la bibliothèque difflib ...

    - W

  4. #4
    Membre averti
    Inscrit en
    Décembre 2005
    Messages
    41
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 41
    Par défaut
    Par exemple si j'ai deux fichiers dans une structure de tableau format texte.
    exemple:
    ----------base------------
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    2009-09-25     10     20     83     86
    2009-09-24     16     35     06     17
    2009-09-23     47     47     05     12
    2009-09-22     59     71     35     41
    2009-09-21     56     82     50     57
    2009-09-18     72     87     57     62
    2009-09-17     42     77     32     52
    ----------cas------------
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    2009-09-24     16     01     06     00
    2009-09-23     47     47     05     13
    2009-09-22     59     71     44     41
    2009-09-17     42     77     01     52
    - Dans les lignes non similaires montre les colonnes non similaires.
    - Extraire la ligne la plus similaire

    Y a-t-il des modules ou autres pour ça?

  5. #5
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 741
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 741
    Par défaut
    Citation Envoyé par zargooo04 Voir le message
    - Dans les lignes non similaires montre les colonnes non similaires.
    - Extraire la ligne la plus similaire
    Techniquement, la difficulté est de rendre "similaire", "calculable" pour qu'on puisse coder cela sans passer par de l'intelligence artificielle.
    Mais pour les cas "simples", difflib sait faire des comparaisons "approximatives".
    Après çà répond ou pas à votre besoin mais pour le savoir, il vous faut lire la documentation, essayer d'appliquer çà à de petits exemples,....
    Ce qui va vous obliger à un peu plus formaliser "similaire"...

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  6. #6
    Membre averti
    Inscrit en
    Décembre 2005
    Messages
    41
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 41
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Techniquement, la difficulté est de rendre "similaire", "calculable" pour qu'on puisse coder cela sans passer par de l'intelligence artificielle.
    Mais pour les cas "simples", difflib sait faire des comparaisons "approximatives".
    Après çà répond ou pas à votre besoin mais pour le savoir, il vous faut lire la documentation, essayer d'appliquer çà à de petits exemples,....
    Ce qui va vous obliger à un peu plus formaliser "similaire"...

    - W
    Je parle de simple comparaison entre les nombres.
    exemple
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    2009-09-17     42     77     01     52
     
    2009-09-17     42     77     32     52
    La différence dans la colonne (04). Les nombres 01 et 32.

    Merci, je vais lire la documentation.
    Documentation en anglais. Je peux lire et comprendre. Mais pour aller vite je préfère la documentation en français mais je pense il n'y a pas un bon site pour ça.

  7. #7
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Bonjour,

    Citation Envoyé par zargooo04 Voir le message
    Extraire la ligne la plus similaire
    Trouver si 2 chaines de caractères sont "similaires" n'est vraiment pas un problème sous Python avec le module difflib.

    Par exemple:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    import difflib
     
    print(difflib.SequenceMatcher(None, "dupont", "dupont").ratio())
    1.0
    print(difflib.SequenceMatcher(None, "dupont", "dupond").ratio())
    0.8333333333333334
    print(difflib.SequenceMatcher(None, "dupont", "durand").ratio())
    0.5
    print(difflib.SequenceMatcher(None, "dupont", "albert").ratio())
    0.16666666666666666
    Reprenons ton exemple:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    from difflib import SequenceMatcher 
     
    x = ["2009-09-25     10     20     83     86",
    "2009-09-24     16     35     06     17",
    "2009-09-23     47     47     05     12",
    "2009-09-22     59     71     35     41",
    "2009-09-21     56     82     50     57",
    "2009-09-18     72     87     57     62",
    "2009-09-17     42     77     32     52"
    ]
     
    y = ["2009-09-24     16     01     06     00",
    "2009-09-23     47     47     05     13",
    "2009-09-22     59     71     44     41",
    "2009-09-17     42     77     01     52",
    ]
     
    result = []
    for i, ligney in enumerate(y):
        for j, lignex in enumerate(x):
            ratio = SequenceMatcher(None, ligney, lignex).ratio()
            result.append([i, j, ratio])
    result.sort(key=lambda v: v[2], reverse=True)
     
    for i, j, ratio in result:
        print(i, "("+y[i]+")", j, "("+x[j]+")", "ratio de similitude:", ratio)
    Ce qui affiche:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    1 (2009-09-23     47     47     05     13) 2 (2009-09-23     47     47     05     12) ratio de similitude: 0.9736842105263158
    2 (2009-09-22     59     71     44     41) 3 (2009-09-22     59     71     35     41) ratio de similitude: 0.9473684210526315
    3 (2009-09-17     42     77     01     52) 6 (2009-09-17     42     77     32     52) ratio de similitude: 0.9473684210526315
    0 (2009-09-24     16     01     06     00) 1 (2009-09-24     16     35     06     17) ratio de similitude: 0.8947368421052632
    0 (2009-09-24     16     01     06     00) 0 (2009-09-25     10     20     83     86) ratio de similitude: 0.8157894736842105
    0 (2009-09-24     16     01     06     00) 4 (2009-09-21     56     82     50     57) ratio de similitude: 0.8157894736842105
    1 (2009-09-23     47     47     05     13) 1 (2009-09-24     16     35     06     17) ratio de similitude: 0.8157894736842105
    0 (2009-09-24     16     01     06     00) 3 (2009-09-22     59     71     35     41) ratio de similitude: 0.7894736842105263
    1 (2009-09-23     47     47     05     13) 4 (2009-09-21     56     82     50     57) ratio de similitude: 0.7894736842105263
    2 (2009-09-22     59     71     44     41) 0 (2009-09-25     10     20     83     86) ratio de similitude: 0.7631578947368421
    3 (2009-09-17     42     77     01     52) 1 (2009-09-24     16     35     06     17) ratio de similitude: 0.7631578947368421
    0 (2009-09-24     16     01     06     00) 5 (2009-09-18     72     87     57     62) ratio de similitude: 0.7368421052631579
    0 (2009-09-24     16     01     06     00) 6 (2009-09-17     42     77     32     52) ratio de similitude: 0.7368421052631579
    3 (2009-09-17     42     77     01     52) 0 (2009-09-25     10     20     83     86) ratio de similitude: 0.7368421052631579
    3 (2009-09-17     42     77     01     52) 2 (2009-09-23     47     47     05     12) ratio de similitude: 0.7368421052631579
    1 (2009-09-23     47     47     05     13) 6 (2009-09-17     42     77     32     52) ratio de similitude: 0.6842105263157895
    1 (2009-09-23     47     47     05     13) 5 (2009-09-18     72     87     57     62) ratio de similitude: 0.6578947368421053
    2 (2009-09-22     59     71     44     41) 5 (2009-09-18     72     87     57     62) ratio de similitude: 0.6578947368421053
    2 (2009-09-22     59     71     44     41) 2 (2009-09-23     47     47     05     12) ratio de similitude: 0.5789473684210527
    2 (2009-09-22     59     71     44     41) 4 (2009-09-21     56     82     50     57) ratio de similitude: 0.5789473684210527
    3 (2009-09-17     42     77     01     52) 5 (2009-09-18     72     87     57     62) ratio de similitude: 0.5789473684210527
    1 (2009-09-23     47     47     05     13) 0 (2009-09-25     10     20     83     86) ratio de similitude: 0.4473684210526316
    1 (2009-09-23     47     47     05     13) 3 (2009-09-22     59     71     35     41) ratio de similitude: 0.4473684210526316
    3 (2009-09-17     42     77     01     52) 4 (2009-09-21     56     82     50     57) ratio de similitude: 0.4473684210526316
    0 (2009-09-24     16     01     06     00) 2 (2009-09-23     47     47     05     12) ratio de similitude: 0.42105263157894735
    2 (2009-09-22     59     71     44     41) 1 (2009-09-24     16     35     06     17) ratio de similitude: 0.42105263157894735
    2 (2009-09-22     59     71     44     41) 6 (2009-09-17     42     77     32     52) ratio de similitude: 0.42105263157894735
    3 (2009-09-17     42     77     01     52) 3 (2009-09-22     59     71     35     41) ratio de similitude: 0.42105263157894735
    On voit dans les 1ers résultats que les 3 lignes de y et x les plus similaires sont:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    la ligne d'indice 1 de y (2009-09-23     47     47     05     13) et la ligne d'indice 2 de x (2009-09-23     47     47     05     12) avec un ratio de similitude: 0.9736842105263158
    la ligne d'indice 2 de y (2009-09-22     59     71     44     41) et la ligne d'indice 3 de x (2009-09-22     59     71     35     41) avec un ratio de similitude: 0.9473684210526315
    la ligne d'indice 3 de y (2009-09-17     42     77     01     52) et la ligne d'indice 6 de x (2009-09-17     42     77     32     52) avec un ratio de similitude: 0.9473684210526315
    Ok?

  8. #8
    Membre averti
    Inscrit en
    Décembre 2005
    Messages
    41
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 41
    Par défaut
    Citation Envoyé par tyrtamos Voir le message
    Bonjour,



    Trouver si 2 chaines de caractères sont "similaires" n'est vraiment pas un problème sous Python avec le module difflib.

    Par exemple:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    import difflib
     
    print(difflib.SequenceMatcher(None, "dupont", "dupont").ratio())
    1.0
    print(difflib.SequenceMatcher(None, "dupont", "dupond").ratio())
    0.8333333333333334
    print(difflib.SequenceMatcher(None, "dupont", "durand").ratio())
    0.5
    print(difflib.SequenceMatcher(None, "dupont", "albert").ratio())
    0.16666666666666666
    Reprenons ton exemple:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    from difflib import SequenceMatcher 
     
    x = ["2009-09-25     10     20     83     86",
    "2009-09-24     16     35     06     17",
    "2009-09-23     47     47     05     12",
    "2009-09-22     59     71     35     41",
    "2009-09-21     56     82     50     57",
    "2009-09-18     72     87     57     62",
    "2009-09-17     42     77     32     52"
    ]
     
    y = ["2009-09-24     16     01     06     00",
    "2009-09-23     47     47     05     13",
    "2009-09-22     59     71     44     41",
    "2009-09-17     42     77     01     52",
    ]
     
    result = []
    for i, ligney in enumerate(y):
        for j, lignex in enumerate(x):
            ratio = SequenceMatcher(None, ligney, lignex).ratio()
            result.append([i, j, ratio])
    result.sort(key=lambda v: v[2], reverse=True)
     
    for i, j, ratio in result:
        print(i, "("+y[i]+")", j, "("+x[j]+")", "ratio de similitude:", ratio)
    Ce qui affiche:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    1 (2009-09-23     47     47     05     13) 2 (2009-09-23     47     47     05     12) ratio de similitude: 0.9736842105263158
    2 (2009-09-22     59     71     44     41) 3 (2009-09-22     59     71     35     41) ratio de similitude: 0.9473684210526315
    3 (2009-09-17     42     77     01     52) 6 (2009-09-17     42     77     32     52) ratio de similitude: 0.9473684210526315
    0 (2009-09-24     16     01     06     00) 1 (2009-09-24     16     35     06     17) ratio de similitude: 0.8947368421052632
    0 (2009-09-24     16     01     06     00) 0 (2009-09-25     10     20     83     86) ratio de similitude: 0.8157894736842105
    0 (2009-09-24     16     01     06     00) 4 (2009-09-21     56     82     50     57) ratio de similitude: 0.8157894736842105
    1 (2009-09-23     47     47     05     13) 1 (2009-09-24     16     35     06     17) ratio de similitude: 0.8157894736842105
    0 (2009-09-24     16     01     06     00) 3 (2009-09-22     59     71     35     41) ratio de similitude: 0.7894736842105263
    1 (2009-09-23     47     47     05     13) 4 (2009-09-21     56     82     50     57) ratio de similitude: 0.7894736842105263
    2 (2009-09-22     59     71     44     41) 0 (2009-09-25     10     20     83     86) ratio de similitude: 0.7631578947368421
    3 (2009-09-17     42     77     01     52) 1 (2009-09-24     16     35     06     17) ratio de similitude: 0.7631578947368421
    0 (2009-09-24     16     01     06     00) 5 (2009-09-18     72     87     57     62) ratio de similitude: 0.7368421052631579
    0 (2009-09-24     16     01     06     00) 6 (2009-09-17     42     77     32     52) ratio de similitude: 0.7368421052631579
    3 (2009-09-17     42     77     01     52) 0 (2009-09-25     10     20     83     86) ratio de similitude: 0.7368421052631579
    3 (2009-09-17     42     77     01     52) 2 (2009-09-23     47     47     05     12) ratio de similitude: 0.7368421052631579
    1 (2009-09-23     47     47     05     13) 6 (2009-09-17     42     77     32     52) ratio de similitude: 0.6842105263157895
    1 (2009-09-23     47     47     05     13) 5 (2009-09-18     72     87     57     62) ratio de similitude: 0.6578947368421053
    2 (2009-09-22     59     71     44     41) 5 (2009-09-18     72     87     57     62) ratio de similitude: 0.6578947368421053
    2 (2009-09-22     59     71     44     41) 2 (2009-09-23     47     47     05     12) ratio de similitude: 0.5789473684210527
    2 (2009-09-22     59     71     44     41) 4 (2009-09-21     56     82     50     57) ratio de similitude: 0.5789473684210527
    3 (2009-09-17     42     77     01     52) 5 (2009-09-18     72     87     57     62) ratio de similitude: 0.5789473684210527
    1 (2009-09-23     47     47     05     13) 0 (2009-09-25     10     20     83     86) ratio de similitude: 0.4473684210526316
    1 (2009-09-23     47     47     05     13) 3 (2009-09-22     59     71     35     41) ratio de similitude: 0.4473684210526316
    3 (2009-09-17     42     77     01     52) 4 (2009-09-21     56     82     50     57) ratio de similitude: 0.4473684210526316
    0 (2009-09-24     16     01     06     00) 2 (2009-09-23     47     47     05     12) ratio de similitude: 0.42105263157894735
    2 (2009-09-22     59     71     44     41) 1 (2009-09-24     16     35     06     17) ratio de similitude: 0.42105263157894735
    2 (2009-09-22     59     71     44     41) 6 (2009-09-17     42     77     32     52) ratio de similitude: 0.42105263157894735
    3 (2009-09-17     42     77     01     52) 3 (2009-09-22     59     71     35     41) ratio de similitude: 0.42105263157894735
    On voit dans les 1ers résultats que les 3 lignes de y et x les plus similaires sont:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    la ligne d'indice 1 de y (2009-09-23     47     47     05     13) et la ligne d'indice 2 de x (2009-09-23     47     47     05     12) avec un ratio de similitude: 0.9736842105263158
    la ligne d'indice 2 de y (2009-09-22     59     71     44     41) et la ligne d'indice 3 de x (2009-09-22     59     71     35     41) avec un ratio de similitude: 0.9473684210526315
    la ligne d'indice 3 de y (2009-09-17     42     77     01     52) et la ligne d'indice 6 de x (2009-09-17     42     77     32     52) avec un ratio de similitude: 0.9473684210526315
    Ok?
    Merci.

    Comme mes fichiers sont des suites de lignes. Mon idée est:
    - Rendre chaque ligne dans les fichiers "cas" et "base" en type LIST.
    - Chercher les listes (dans "base") similaires aux listes (dans "cas").

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. comparer deux fichier .xls
    Par oursquetaire dans le forum Excel
    Réponses: 6
    Dernier message: 06/07/2006, 16h52
  2. [JDOM] Comparer deux fichiers XML en Java
    Par calimero2611 dans le forum Format d'échange (XML, JSON...)
    Réponses: 5
    Dernier message: 30/06/2006, 11h19
  3. Comparer deux fichier
    Par Taz_8626 dans le forum Langage
    Réponses: 3
    Dernier message: 20/06/2006, 11h46
  4. comparer deux fichiers avec une api windows
    Par sweetdreamer dans le forum Windows
    Réponses: 4
    Dernier message: 25/05/2006, 22h10
  5. Fonction c qui compare deux fichiers ???
    Par babyface dans le forum C
    Réponses: 4
    Dernier message: 19/11/2005, 13h07

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo