REGEXP sous chaîne

**Jasmine80** · 08/07/2009, 15h32

Bonjour,

Voici mon problème :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
my $sql0 = <<"SQL0";
SELECT accession, organism, sequence
FROM ma_table
WHERE sequence REGEXP 'TGTAGACGTGACGATGTAACAC[ATCG]{100,}' OR sequence REGEXP '[ATCG]{100,}TGATACCGATCCCTAGAACAGAT' 
SQL2

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my ($subseq) = $sequence =~ m/((?:TGTAGACGTGACGATGTAACAC)?[ATCG]{100,250}(?:TGATACCGATCCCTAGAACAGAT)?)/;

$sequence contient TGTAGACGTGACGATGTAACAC ou TGATACCGATCCCTAGAACAGAT ou les 2 polynucléotides séparés par 100 à 250 nucléotides.

J'aimerais récupérer des sous-séquences de $sequence dont les 2 polynucléotides (TGTAGACGTGACGATGTAACAC et TGATACCGATCCCTAGAACAGAT) seraient les bornes. Si un seul polynucléotide est présent on récupère ce qu'il est possible de récupérer en gardant les même bornes.

Le problème est que si je fais une recherche gourmande, je récupère d'office 250 nucléotides après le premier polynucléotide (ce qui peut dépasser le second polynucléotide) et dans le cas contraire ([ATCG]{100,250}?), je n'en récupère que 100 et le second polynucléotide est laissé de côté.

Comment puis-je faire en une seule regexp?

Merci pour votre aide,

**Philou67430** · 08/07/2009, 15h38

Erreur

**Philou67430** · 08/07/2009, 15h44

As-tu essayé quelque chose du genre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my ($subseq) = $sequence =~ m/((?:^|TGTAGACGTGACGATGTAACAC)[ATCG]{100,250}(?:TGATACCGATCCCTAGAACAGAT|$))/;

**s.n.a.f.u** · 08/07/2009, 15h51

Envoyé par Philou67430

As-tu essayé quelque chose du genre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my ($subseq) = $sequence =~ m/((?:^|TGTAGACGTGACGATGTAACAC)[ATCG]{100,250}(?:TGATACCGATCCCTAGAACAGAT|$))/;

Je ne peux pas tester, mais je pense qu'il faut utiliser le caractère ungreedy pour la recherche des nucléotides.
En l'état, sur une chaîne de longueur maximum, le motif va trouver 250 nucléotides, qu'il y ait présence ou non du polynucléotide à l'intérieur. Ensuite il va éventuellement backtracker ( beurk, c'est laid comme mot) et trouvera le polynucléotide de fin, mais pas celui qui est à l'intérieur.
Bref, je m'explique comme un manche, mais la version ungreedy est à tester :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my ($subseq) = $sequence =~ m/((?:^|TGTAGACGTGACGATGTAACAC)[ATCG]{100,250}?(?:TGATACCGATCCCTAGAACAGAT|$))/;

Jasmine, tu avais bien cerné le problème de gourmandise (normal, tu es une femme...

), et ton souci venait principalement du caractère optionnel du dernier polynucléotide. Enfin je pense, j'ai pas matière à tester...

**Jasmine80** · 08/07/2009, 15h58

J'avais résolu le problème en utilisant

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
	$sequence =~ s/.*(TGTAGACGTGACGATGTAACAC[ATCG]{100,250}).*/$1/;
	$sequence =~ s/.*?([ATCG]{100,250}TGATACCGATCCCTAGAACAGAT).*/$1/;

... est-ce moins performant?

Je vais tester vos réponses, merci pour votre aide.

**s.n.a.f.u** · 08/07/2009, 16h17

Maintenant que j'y regarde une deuxième fois, je vois un autre problème potentiel :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

(?:^|TGTAGACGTGACGATGTAACAC)

En début de chaîne, il va forcément trouver ^ et ne cherchera pas le polynucléotide.

**Jasmine80** · 08/07/2009, 16h33

Code s.n.a.f.u;4471190 :

Sélectionner tout - Visualiser dans une fenêtre à part

(?:^|TGTAGACGTGACGATGTAACAC)

Oui, il suffit d'inverser

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

(?:GCATATCAATAAGCGGAGGA|^)

Envoyé par s.n.a.f.u

Jasmine, tu avais bien cerné le problème de gourmandise (normal, tu es une femme...

),

surtout le chocolat

Envoyé par s.n.a.f.u

mais vue ta solution, il semble que cette séquence n'est qu'une partie de la chaîne, c'est bien cela ?

Oui, normalement, c'est bien cela mais tous les cas sont possibles avec des chaînes tronquées.

**Jasmine80** · 08/07/2009, 16h44

Le problème est que parfois on retrouve TGTAGACGTGACGATGTAACAC suivit de plus de 250 nucléotides sans TGATACCGATCCCTAGAACAGAT et donc cela pose problème. Il faudrait qu'il s'arrête au 250ième si iol n'y a pas TGATACCGATCCCTAGAACAGAT et si on n'est pas à la fin :

Peut-être ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my ($subseq) = $sequence =~ m/((?:TGTAGACGTGACGATGTAACAC|^)[ATCG]{100,250}?(?:TGATACCGATCCCTAGAACAGAT|\w))/;

.. ça récupère le caractère (\w) en trop mais c'est un moindre mal.

**s.n.a.f.u** · 08/07/2009, 16h45

Et que donnerai ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
my ($subseq) = $sequence =~ m/^
.*?                               # élimination des inopportuns en début de chaîne
(                                 # début de capture
(?: TGTAGACGTGACGATGTAACAC)?      # recherche du premier polynucleotide facultatif
( (?: [ATCG](?!\2) ){100,250})   # parcours des nucléotides intermédiaires
(TGATACCGATCCCTAGAACAGAT)?        # deuxième polynucléotide facultatif
)                                 # fin de capture
/x;

**Philou67430** · 09/07/2009, 12h31

Question : si les motifs de début et de fin de séquence sont au début et en fin de chaine, ne suffirait-il pas de les supprimer, puis de vérifier qu'il reste bien entre 100 et 250 nucléotides ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
$seq =~ s/^($start)?|($end)?$//g;
if (length $seq > 100 && length $seq < 250) { ...

**Jasmine80** · 09/07/2009, 12h57

Envoyé par Philou67430

Question : si les motifs de début et de fin de séquence sont au début et en fin de chaine, ne suffirait-il pas de les supprimer, puis de vérifier qu'il reste bien entre 100 et 250 nucléotides ?

Je voudrais que ces 2 motifs soient les bornes de ma chaîne mais en réalité les séquences de départ sont beaucoup plus longues que cela et débordent de part et d'autre de ces motifs.

Il est inutile de vérifier que la séquence intermédiaire soit comprises entre 100 et 250 nucléotides, elle fait toujours entre environ 130 et 150 nucléotides. (vérifié après l'utilisation des 2 substitutions).

C'est très gentil de votre part de vouloir m'aider mais j'ai obtenu ce que je voulais. On peut néanmoins continuer de discuter par curiosité et pour le plaisir de résoudre ce problème autrement que par 2 substitutions.

REGEXP sous chaîne

Langage Perl

Vue hybride

Discussions similaires

Partager

Partager