IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

Erreurs de séquençage - Frameshift correction


Sujet :

Bioinformatique Perl

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Juin 2010
    Messages
    22
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2010
    Messages : 22
    Points : 20
    Points
    20
    Par défaut Erreurs de séquençage - Frameshift correction
    Bonjour,

    Je viens de réaliser les assemblages denovo de 64 génomes bactériens issus de séquençages 454. Mes génomes d'intérêt sont AT-riches (80%) et la présence de nombreux homopolymères confère des erreurs dans les séquences.

    Je voulais savoir si vous connaissiez un programme ou possédiez des bouts de codes me permettant d'effectuer des corrections de séquences en se basant sur un génome de référence. Je pensais me lancer dans l'écriture d'un script en (bio)perl mais cette tache serait certainement au dessus de mes compétences.

  2. #2
    Membre confirmé Avatar de Beniou
    Homme Profil pro
    Inscrit en
    Novembre 2009
    Messages
    357
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Nord (Nord Pas de Calais)

    Informations forums :
    Inscription : Novembre 2009
    Messages : 357
    Points : 515
    Points
    515
    Par défaut
    Bonjour,

    Les homopolymeres sont effectivement un problème récurrent dans le séquençage par un 454...

    Par contre, afin de comprendre exactement le problème pourrais-tu décrire un peu plus ton protocole, car des assemblages de novo, et des mapping sur des génomes références ne présentent pas les mêmes problèmatiques.

    Quels outils as-tu utilisés pour l'instant ? Ceux fournis par Roche ? Newbler et compagnie ?

  3. #3
    Membre à l'essai
    Profil pro
    Inscrit en
    Juin 2010
    Messages
    22
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2010
    Messages : 22
    Points : 20
    Points
    20
    Par défaut
    Salut Beniou,

    Les assemblages de novo ont été réalisés au moyen de mira. Les contigs ont ensuite été ordonnés afin d'être regroupés en scaffold avec le soft nommé Abacas et créée par le Sanger Institute.

    N'ayant pas une couverture exceptionnelle, mon problème final demeure au niveau des homopolymères. Il manque assez souvent une base ou bien j'ai ai une de trop. Je souhaite donc adapter le nombre de bases dans mes scaffolds en fonction du nombre présents dans le génome de référence.

    Voici un exemple tiré d'un résultat de blast. La query est le scaffold et le hit est le génome de référence:



    As-tu une idée?

  4. #4
    Membre confirmé Avatar de Beniou
    Homme Profil pro
    Inscrit en
    Novembre 2009
    Messages
    357
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Nord (Nord Pas de Calais)

    Informations forums :
    Inscription : Novembre 2009
    Messages : 357
    Points : 515
    Points
    515
    Par défaut
    J'ai des projets où j'ai quasiment les mêmes problèmes avec les homopolymères.

    Pour l'instant je fais de la biblio.
    J'ai découvert récemment (et non testé encore) deux programmes qui peuvent peut être aider :
    - NextGene mais il est commercial -> ici
    - SCARF (open source) -> article. bon il fait ca sur des ESTs mais cela doit pouvoir fonctionner pour autre chose.

    Je continue de chercher. Si tu les testes j'aimerais bien avoir ton avis dessus.

    Dernière chose si tu ne connais pas : le site et le forum de SEQanswer contient pas mal de chose intéressantes sur les programmes, les techniques, et le forum sert d'échange dans tout ce qui concerne les séquenceurs haut début.

  5. #5
    Membre à l'essai
    Profil pro
    Inscrit en
    Juin 2010
    Messages
    22
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2010
    Messages : 22
    Points : 20
    Points
    20
    Par défaut
    Citation Envoyé par Beniou Voir le message
    J'ai des projets où j'ai quasiment les mêmes problèmes avec les homopolymères.
    Bienvenue au club!

    Citation Envoyé par Beniou Voir le message
    Pour l'instant je fais de la biblio.
    J'ai découvert récemment (et non testé encore) deux programmes qui peuvent peut être aider :
    - NextGene mais il est commercial -> ici
    - SCARF (open source) -> article. bon il fait ca sur des ESTs mais cela doit pouvoir fonctionner pour autre chose.

    Je continue de chercher. Si tu les testes j'aimerais bien avoir ton avis dessus.
    Le fait que NextGene soit un logiciel commercial est totalement rédhibitoire pour moi.
    Je viens de tester SCARF, c'est un assembleur qui fonctionne plutôt bien mais nécessite obligatoirement l'utilisation d'une référence. Le projet dans lequel je m'inscris n'est pas un reséquençage et il implique au préalable de faire un assemblage denovo

    Citation Envoyé par Beniou Voir le message
    Dernière chose si tu ne connais pas : le site et le forum de SEQanswer contient pas mal de chose intéressantes sur les programmes, les techniques, et le forum sert d'échange dans tout ce qui concerne les séquenceurs haut début.
    Merci pour cette référence que j'ai déjà eu l'occasion de pratiquer lors de l'assemblage. C'est d'ailleurs suite à la lecture de différents posts que je me suis orienté sur l'assembleur MIRA

  6. #6
    Membre à l'essai
    Profil pro
    Inscrit en
    Juin 2010
    Messages
    22
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2010
    Messages : 22
    Points : 20
    Points
    20
    Par défaut
    Il ne semble pas y avoir de d'outil miracle permettant de corriger mes erreurs de séquençage liées aux homopolymères. Je vais donc vous présenter la stratégie envisagée:

    • 1 - Alignement multiple de mes différents génomes assemblés (contenant des erreurs) avec un génome de référence en utilisant une fenêtre glissante de 5k
    • 2 - Pour chaque séquence alignée, et à chaque position: s'il y a présence d'un gap alors comparaison avec la séquence consensus et éventuelle correction de ce gap par la base adéquate.


    Pour l'instant, je n'avais utilisé que les modules bioperl de manipulation de séquence, interrogation de base de données et parsing de blast.
    Je suis parti sur un alignement ClustalW et j'arrive à faire glisser ma fenetre tous les 5kb afin de générer différents alignements. Par contre je bloque sur la seconde partie. Dans un soucis de simplicité, il faudrait que j'arrive a convertir mon alignement en un fasta aligné et ainsi retomber sur des modules que je maitrise.

    Savez vous comment exporter un alignement ClustalW réalisé en bioperl au format FASTA?
    (Je pense que ça ne devrait pas poser trop de problème à Jasmine80, elle a l'air de toucher sa bille sur Bio::Tools::Run::Alignment::Clustalw)

  7. #7
    Membre confirmé Avatar de Beniou
    Homme Profil pro
    Inscrit en
    Novembre 2009
    Messages
    357
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Nord (Nord Pas de Calais)

    Informations forums :
    Inscription : Novembre 2009
    Messages : 357
    Points : 515
    Points
    515
    Par défaut
    Pour convertir les sorties clustal en fasta tu peux regarder ce post où cela a déjà été traité normalement avec succès mais sait-on jamais ?

  8. #8
    Membre à l'essai
    Profil pro
    Inscrit en
    Juin 2010
    Messages
    22
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2010
    Messages : 22
    Points : 20
    Points
    20
    Par défaut
    Merci pour cette info. J'avais fait une recherche sur le forum avec clustalw et pas clustal. c'est pour cela que je n'avais pas déjà trouvé la réponse.

    En attendant, j'avais pondu une solution un peu bâtarde faisant la même chose mais en plus de lignes:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    @params = ('ktuple' => 2, 'matrix' => 'BLOSUM');
    $factory = Bio::Tools::Run::Alignment::Clustalw->new(@params);
    $inputfilename = 'tempoutfile.fasta'; 
      $align = $factory->align($inputfilename);
     
    open (MULTIFASTAALIGN, ">align.fasta");
    foreach $seq ( $align->each_seq() ) {
      $seqid = $seq->id();
      $seqseq = $seq->seq();
      $seqseq =~ tr/./-/;
      print MULTIFASTAALIGN ">".$seqid."\n";
      print MULTIFASTAALIGN "$seqseq.\n";
    }

Discussions similaires

  1. Réponses: 7
    Dernier message: 20/01/2011, 15h24
  2. compilation correcte mais fenetre d'erreur
    Par alibas dans le forum Visual C++
    Réponses: 6
    Dernier message: 01/10/2006, 23h02
  3. radiobutton erreur n'est pas une valeur entière correcte
    Par pierrot67 dans le forum Bases de données
    Réponses: 3
    Dernier message: 12/03/2006, 21h27
  4. erreur '' n'est pas une valeur entière correcte
    Par ffxlenoir dans le forum Langage
    Réponses: 5
    Dernier message: 02/12/2005, 13h57

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo