Bonjour,
Je suis en train de créer une base de données MySQL avec une table contenant des séquences d'ADN devant être uniques. Je nourris la base à partir de fichiers plats que je traite en Perl (et oui... ).
Les 2 écueils sont les suivants :
- un index unique doit contenir la longueur du segment de la chaine à comparer, or la longueur est variable et la comparaison doit se faire sur la totalité de la chaine
- une indexation sur des chaines aussi longues (>= 500 caractères) va être lourde pour la base.
Je cherche donc une façon de convertir une séquence en entier unique, selon sa longueur et ordre des nucléotides.
Connaîtriez-vous un algo capable de faire ceci (soit directement utilisable par module, soit assez bien décrit pour être implémenté par quelqu'un qui n'a jamais fait d'algo (moi )) ?
En vous remerciant,
C. Tobini
Partager