Bonjour,
Je me demande quelle est la meilleure solution pour le probleme ci-dessous:
Nous avons deux tres grandes listes de fichiers. Chaque liste est sous forme de fichier texte, chaque ligne du fichier representant le chemin d'acces a un fichier.
Il s'agit de trouver les lignes qui apparaissent dans chaque fichier, autrement dit, trouver les doublons. Le probleme serait trivial si ce n'est le grand nombre fichiers: Chaque liste possede environ 35 millions de fichiers, soit un nombre total de plus de 70 millions de fichiers et chaque liste pese environ 12Go.
Mettre tout ca dans une liste et faire une comparaison bete et simple prendra des jours et des jours....
Quelqu'un a un idee ?
Merci d'avance
Partager