Bonjour,
Je travaille actuellement sur une base access 2003. Pour faire une analyse bioinfo, j'ai besoin de comparer efficacement des patterns entre eux afin de :
- voir les inclusions (un pattern est en fait une sous partie d'un autre)
C-G-D est inclu dans M-P-C-G-D-Y
C-G-D est aussi inclu dans M-P-[CD]-G-D(2)-[YRM]
(je précise que les patterns sont au format "Prosite" d'origine -pour ceux qui connaissent- mais je les traduis en SQL lors du traitement par expressions régulières et les fonctions associées)
- les recouvrements (la fin d'un pattern est le début d'un autre)...
ex simple : M-P-C-G-D / C-G-D-Y-L
Je n'ai malheureusement rien trouver sur ce thème . Les seuls exemples sur les expressions régulières en SQL (ou autres) sont pour effectuer des recherches dans des chaines de caractères. Je n'ai pas trouver de solutions pour permettre d'analyser (à la place des chaine de caractères habituelles) des patterns. Je ne veux pas non plus faire toutes les combinaisons possibles des patterns pour les mettre en chaines de caractères car cela serait vraiment énormes.
à titre d'idées :
je travaille sur des séquences protéiques (20 acides aminés) avec en plus, la possiblité dans les pattern de mettre des incertitudes (c'est à dire un X symbolisant une des 20 lettres).
Exemple de pattern : C-G-x-D : longueur 4, 20 combinaison possibles !! mais voici un plutot le genre de pattern que je peux obtenir : C-G-x(2,4)-D (que je convertis bien sur en SQL pour un traitement info) représente une séquence de longueur 5 à 7, mais cela donne (à cause du x) de nombreuses combinaisons !!
Je suis ouverte à toutes suggestions... Merci !
Partager