Bonjour,

Je suis en train de créer une base de données MySQL avec une table contenant des séquences d'ADN devant être uniques.

Les 2 écueils sont les suivants :

- un index unique doit contenir la longueur du segment de la chaine à comparer, or la longueur est variable et la comparaison doit se faire sur la totalité de la chaine

- une indexation sur des chaines aussi longues (>= 500 caractères) va être lourde pour la base.

Je cherche donc un algo capable de convertir une chaine de caractère en entier, sachant que la chaine est composée de 4 caractères (A, T, G et C) et que leur ordre est primordial (ATGC et AGTC ne doit pas être pondéré de la même manière).

Connaîtriez-vous un algo capable de faire ceci (soit directement utilisable (je développe en Perl) soit assez bien décrit pour être implémenté par quelqu'un qui n'a jamais fait d'algo (moi )) ?

En vous remerciant,

C. Tobini