Bonjour.
Mon problème est le suivant:
Je possède une liste de chaînes de 22 caractères (choisis parmis 35 caractères différents). Pour l'instant, cette liste est stockée en base de données, afin de pouvoir manipuler les données assez facilement.
Je voudrais avoir une distance minimale de k entre chaque chaîne et donc supprimer les chaînes ne remplissant pas cette condition.
Je pensais regarder du côté des distances de Levenstein ou de Hamming, mais malheureusement, le nombre de chaînes a traiter est très élevé (quelques millions) et comparer chaque chaîne à toutes les autres risque de me prendre énormément de temps et des ressources.
Voyez vous une meilleure solution?
Merci d'avance!
Partager