Repérer deux fichiers identiques mais pas avec les mêmes dates

**rambc** · 16/03/2009, 11h30

Bonjour,
j'ai deux fichiers Fichier1.png et Fichier2.png. Je voudrais savoir si ces fichiers sont identiques mais s'en tenir compte de leurs dates de modification, de création.
La méthode doit pouvoir marcher avec tout type de fichier.

Toute info. est la bienvenue.

**pacificator** · 16/03/2009, 11h43

Soit tu ouvres les fichiers en mode binaire et tu compares bit à bit (et c'est un peu lourd).
Soit tu géneres un hash de tes fichiers et si ils sont égaux, tes fichiers sont identiques.

**rambc** · 16/03/2009, 11h51

Merci pour la réponse.
La comparaison bits à bits était-elle lente ou juste pénible à mettre en oeuvre ?

Pour le hash cela me parait simple dans l'esprit. Va falloir que je regarde cela de prêt.

Une fois quelque chose qui fonctionne à peu près je poste ici.

**pacificator** · 16/03/2009, 12h03

Je dirais que le mecanisme de hashage est adapté à cette problématique.
Tu peux ainsi conserver une empreinte de ton fichier pour savoir si il a été modifié.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
import hashlib
f = open('text1.txt', 'rb')
hash = hashlib.sha1()
data = f.read(1024)
while data:
    hash.update(data)
    data = f.read(1024)
 
print hash.hexdigest()
 
# en plus court pour un petit fichier
print hashlib.sha1(open('text1.txt', 'rb').read()).hexdigest()

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
f52a7c8f14cc9dbf64ed942d2d66a45ef3e5695b

**rambc** · 16/03/2009, 12h38

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

data = f.read(1024)

Merci,quézako ce read(1024) ?

**pacificator** · 16/03/2009, 12h48

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
help(file.read)
 
read(...)
    read([size]) -> read at most size bytes, returned as a string.
 
    If the size argument is negative or omitted, read until EOF is reached.
    Notice that when in non-blocking mode, less data than what was requested
    may be returned, even if no size parameter was given.

Cela permet de lire une partie de ton fichier (içi 1024 octets) sans le charger entiérement en mémoire.
Si tu veux faire un hash sur un fichier de plusieurs méga, il vaut mieux éviter de charger l'integralité de celui-ci en mémoire.

**DelphiManiac** · 16/03/2009, 15h40

Envoyé par pacificator

...Soit tu géneres un hash de tes fichiers et si ils sont égaux, tes fichiers sont identiques.

Rien ne garantie que 2 fichiers produisant la même empreinte (hash) soient identiques, c'est ce qu'on appelle les collisions.

**pacificator** · 16/03/2009, 16h11

Envoyé par DelphiManiac

Rien ne garantie que 2 fichiers produisant la même empreinte (hash) soient identiques, c'est ce qu'on appelle les collisions.

Je suis d'accord, c'est pourquoi j'ai utilisé sha1 qui est beaucoup moins sujet aux collisions que md5

**oiffrig** · 16/03/2009, 17h38

Certes, mais statistiquement il y a une collision entre 2 fichiers de taille inférieure ou égale à 20 octets.
En effet, sha1 génère des hash de 20 octets (40 digits hexa), soit 256**20 hash différents. Donc, si on suppose que la première collision intervient après toutes les combinaisons possibles (au sens de l'ordre lexicographique), on a toutes les combinaisons en utilisant des fichiers de taille inférieure ou égale à 20 octets. (il y en a exactement (256**21 - 1)/255 soit "un peu" (5.7*10**45 par rapport à 10**49) plus que 256**20)

**DelphiManiac** · 16/03/2009, 19h24

J'ai fais cette remarque, parce que, vu la demande initiale, il n'est pas acceptable, même avec une probabilité très faible de considérer deux fichiers identiques s'il ne le sont pas.

Surtout comme l'a fait remarqué un intervenant, pour calculer un hash, il faut dans tout les cas, lire le fichier entièrement, donc autant comparer "bit à bit", au moins on peut arrêter la comparaison dès la première différence, on y gagnera souvent.

Repérer deux fichiers identiques mais pas avec les mêmes dates

Python

Vue hybride

Discussions similaires

Partager

Partager