Bonjour,

Ma problématique est la suivante : ma future architecture logicielle doit collecter plusieurs milliers de fichiers par jour au fil de l'eau.
Je désire mettre en place une solution qui permettre de s'assurer qu'un fichier est collecté pour la 1ère fois (à la connaissance d'un historique de 7J).
Dans le cas d'une collecte répétée sur un fichier, mes contraintes sont les suivantes :
  1. La conservation du nom du fichier n'est pas garantie
  2. La structure du contenu n'est ni déterminée ni constante
  3. Le contenu est évidemment identique !
J'ai pensé à exploiter le CRC (Contrôle de redondance cyclique) comme clé d'unicité. Ce CRC peut être obtenu sous UNIX ou LINUX par la commande suivante :

Je me suis documenté sur la sujet pour répondre à la question suivante : Est-ce que la probabilité d'obtenir un CRC identique sur deux fichiers différents est nulle ? Dans la cas contraire, est-elle infinitésimale ?

Je n'ai pas trouvé de réponse précise. Avez-vous un avis ?

Merci de vos réponses

Christophe