IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

Aide pour l'analyse des données NGS


Sujet :

Bioinformatique Perl

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Stagiaire en Bioinformatique
    Inscrit en
    Juillet 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Stagiaire en Bioinformatique

    Informations forums :
    Inscription : Juillet 2014
    Messages : 5
    Points : 1
    Points
    1
    Par défaut Aide pour l'analyse des données NGS
    Bonjour,

    Je suis nouveau en bio-informatique donc je me permets de demander l'aide pour analyser des séquences issues d'un séquençage (NGS) avec la technologie illumina.

    En effet, n'ayant pas de logiciel payant conçu pour l'analyse, j'ai essayé d'utiliser l'outil galaxy (https:/usegalaxy.org/) mais je rencontre des problèmes techniques.
    Je voudrais savoir quels logiciels ou outils gratuits utilisez-vous pour analyser des séquences sous format fastq (contrôle qualité, alignement pour obtenir le .Bam, marquage des duplicats, réalignement local etc.) pour pouvoir à la fin détecter des variations au niveau du génome (SNP, Mutations etc.) ?

    Deuxième question, y a-t-il quelqu'un qui s'y connaît dans l'utilisation de l'outil open source Galaxy (https:/usegalaxy.org/) pour pouvoir m'aider à réaliser mon analyse ?

    Je vous remercie par avance;
    M.S

  2. #2
    Membre éprouvé Avatar de Gardyen
    Homme Profil pro
    Bio informaticien
    Inscrit en
    Août 2005
    Messages
    637
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bio informaticien

    Informations forums :
    Inscription : Août 2005
    Messages : 637
    Points : 1 050
    Points
    1 050
    Par défaut
    Bonjour et bienvenue dans le forum bio info

    il existe de nombreux outils gratuits pour analyser les données de NGS, dont Galaxy fait partie.
    Je te conseille de traîner sur leur wiki afin de te familiariser avec l'engin.
    Galaxy te propose de nombreux outils pour traiter tes données, à toi de faire le tri et de les installer si besoin est.

    Je t'invite à consulter ce topic pour le nettoyage de séquences.
    Le format SAM/BAM est décrit avec les samtools, qui contiennent mpileup, utilisé pour la recherche de SNP ou de variants

    Ensuite pour le traitement tu disposes de plusieurs pipelines, comme la suite cufflinks, ou l'approche quantitative avec htseq-count et DESeq.

    Il existe une mailing list galaxy france qui pourrait t'intéresser, sinon je peux aider dans une certaine mesure, ayant installé un serveur local dans mon service.

    Bon courage !
    Nous les geeks, c'est pas qu'on a une case en moins, c'est juste qu'on compte à partir de zéro.
    Plus les choses changent, plus elles restent les mêmes

  3. #3
    Rédactrice

    Avatar de stoyak
    Profil pro
    Inscrit en
    Juin 2005
    Messages
    408
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2005
    Messages : 408
    Points : 1 491
    Points
    1 491
    Par défaut
    Bonjour,

    Voici pêle-mêle des outils et logiciels pour l'analyse de données NGS. Avant d'utiliser Galaxy, je te conseillerai également de connaître la terminologie, les étapes clés et quelques outils de référence.

    -> Contrôle qualité (qualité des bases, score d'alignement, profondeur de lecture, reads dupliqués....) : FastQC. Il génère des graphes et est standard pour cette étape.

    -> Alignement : tu trouveras un certain nombre d'outils référencés. A partir d'une plateforme Illumina, tu peux utiliser CASAVA. D'autres préfèreront BWA, Bowtie, Tophat, Novoalign, SOAPdenovo... Ils peuvent être spécifiques de certaines données (DNAseq/RNAseq), utiliser ou nom un génome de référence (alignement de novo ou non). La plupart d'entre eux te fourniront les fichiers d'alignement au format SAM/BAM. Tu peux facilement passer d'un format à l'autre en utilisant SAMtools. Ils s'utilisent tous (sauf logiciels commerciaux) en ligne de commande. Un petit recensement ici.

    -> Identification de variations : il te restera donc (pour du DNAseq) à déterminer les variants (si tu as un génome de référence, SNP ou mutations). Ici aussi, un certains nombre de logiciels peuvent être utilisés : GATK, SAMtools...

    Si tu disposes de données de RNAseq, tu devras après alignement effectuer l'identification de gènes différentiels et d'évènements de splicing. Mais d'après ton post, tu ne sembles pas disposer de ce genre de données. J'espère t'avoir donner quelques pistes de réflexion.
    Cela demande du courage d'en tirer du plaisir
    Quand on n'a qu'un marteau, tous les problèmes ressemblent à un clou

  4. #4
    Nouveau Candidat au Club
    Homme Profil pro
    Stagiaire en Bioinformatique
    Inscrit en
    Juillet 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Stagiaire en Bioinformatique

    Informations forums :
    Inscription : Juillet 2014
    Messages : 5
    Points : 1
    Points
    1
    Par défaut
    Bonjour @Gardyen et @stoyak ,

    je vous remercie pour ces éclaircissements. J'espère que vous pouver me donner un coup de main technique cette fois-ci. J'ai commencé à regarder a regarder un peux les différents outils pour les analyses mais il y on a trop sur galaxy.
    Donc j'ai essayer de procéder à une analyse toujours sur galaxy, en sélectionnant quelques outils ( en m'aidant par une vidéo tutto), et voilà ce que j'ai faits en détail :

    J'ai commencé par un fichier fastq (test) que j'ai trouvé sur le site de galaxy, il est de l'ordre de 7 Mo, tout en sachant que mes fichiers sont dans les 7 GB (ça c'est un autre problème à traiter vu les difficultés d'upload)

    -Pour le contrôle qualité : J'ai commencé par utiliser Groomer et trimmer puis fastQC pour voir la qualité de mes séquences.

    -Pour l'alignement : j'ai utilisé Bowtie2 et j'ai aligné avec la séquence du génome humain (hg19) pour avoir mon Bam.

    -Pour chercher les duplicats de PCR, j'ai utilisé au début Flag Stat qui n'a rien identifié, donc j'ai utilisé Mark Duplicates Pour marquer les duplicats de PCR et par la suite j'ai confirmé les duplicas marqués avec Flag Stat.

    -Pour délimiter ma séquence, j'ai utilisé l'utilitaire Intersect Bam alignement pour circonscrir mon Bam aux intervalles génomiques d'un fichier bed, déja ici j'ai rencontré un problème car je n'ai pas trouvé sur le site galaxy un fichier .bed qui contient les régions génomiques, d'où ma prmière question d'ou je peux avoir ce fichier ? Est-ce que cette cette étape est primordiale ?

    -Pour le réalignement local, j'ai utilisé l'utilitaire Realigner Target Creator (GATK tools) et c'est là où je suis bloqué pour le moment car je n'arrive pas à sélectionner un fichier dans les champs "BAM file:" et "Using reference genome:" aussi il faut que j'ai le fichier vcf qui contient les sites connus, je pense que le fichier s'appelle Known sites regions.vcf. Comment je peux avoir ces fichiers ou pourrai-je procéder autrement ?

    Enfin normalement ce qui me reste a faire c'est de visualiser les séquences et les comparer entres elles ou chercher des mutations.

    Voila ! j'espère que j'ai été clair dans ma description.

    Je vous remercie par avance,
    M.S

  5. #5
    Membre éprouvé Avatar de Gardyen
    Homme Profil pro
    Bio informaticien
    Inscrit en
    Août 2005
    Messages
    637
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bio informaticien

    Informations forums :
    Inscription : Août 2005
    Messages : 637
    Points : 1 050
    Points
    1 050
    Par défaut
    les fichiers d'annotations de génomes ne sont pas fournis pas galaxy, mais plutôt par les base de données publiques qui s'occupent de ce genre de données.
    Fouille donc un peu chez EnsEMBL ou UCSC pour obtenir ce que tu cherches.

    L'intérêt de cette étape dépend de ton but, elle sert à mapper tes séquences à des régions génomiques d'intérêt.

    Pour la dernière question, as-tu vérifié le format des tes fichiers intermédiaires ?
    Nous les geeks, c'est pas qu'on a une case en moins, c'est juste qu'on compte à partir de zéro.
    Plus les choses changent, plus elles restent les mêmes

  6. #6
    Nouveau Candidat au Club
    Homme Profil pro
    Stagiaire en Bioinformatique
    Inscrit en
    Juillet 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Stagiaire en Bioinformatique

    Informations forums :
    Inscription : Juillet 2014
    Messages : 5
    Points : 1
    Points
    1
    Par défaut
    Re-bonjour;

    J'ai cherché UCSC mais je n'arrive pas à trouver des fichiers .VCF ou .BED. Je regarderai sur EnsEMBL.

    Concernant l'outil "Realigner Target Creator", en effet pour le champ "Bam:" j'ai vérifié j'arrive à sélectionner mon fichier d'intersection mais pour le champ "Using référence génome:" je ne peux pas sélectionner le gène de référence hg19 pourtant sur les autres outils tels que Bowtie2 j'arrive à le sélectionner à partir d'un menu déroulant, donc cela veut dire peut-être que pour le "Realigner Target Creator", je dois télécharger la séquence hg19 et l'uploader ?

    Autre question c'est quoi les formats VCF et bed?

    Merci beaucoup par avance;
    M.S

  7. #7
    Membre éprouvé Avatar de Gardyen
    Homme Profil pro
    Bio informaticien
    Inscrit en
    Août 2005
    Messages
    637
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bio informaticien

    Informations forums :
    Inscription : Août 2005
    Messages : 637
    Points : 1 050
    Points
    1 050
    Par défaut
    description des formats: sur UCSC

    pour le génome, il te faut installer un génome de référence peut-être ?
    Nous les geeks, c'est pas qu'on a une case en moins, c'est juste qu'on compte à partir de zéro.
    Plus les choses changent, plus elles restent les mêmes

  8. #8
    Nouveau Candidat au Club
    Homme Profil pro
    Stagiaire en Bioinformatique
    Inscrit en
    Juillet 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Stagiaire en Bioinformatique

    Informations forums :
    Inscription : Juillet 2014
    Messages : 5
    Points : 1
    Points
    1
    Par défaut
    @Gardyen,

    Merci pour ce lien.

    Pour le génome de référence je pense qu'effectivement je dois le télécharger quelque part et l'uploader sur Galaxy, déjà si vous aurez un lien je suis preneur.

    Concernant l'identification des variations, pourriez-vous me citer quelques outils de Galaxy qui me permettons de comparer par exemple des patients malades avec des sains et voir les variations dans une région donnée du génome (SNP, etc.)?

    Enfin pour visualiser le génome avec les variations, y a-t-il une solution dans galaxie ?
    Encore une fois merci énormément pour votre aide;
    M.S

  9. #9
    Membre éprouvé Avatar de Gardyen
    Homme Profil pro
    Bio informaticien
    Inscrit en
    Août 2005
    Messages
    637
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bio informaticien

    Informations forums :
    Inscription : Août 2005
    Messages : 637
    Points : 1 050
    Points
    1 050
    Par défaut
    génome de référence: galaxy wiki

    pour ce genre de comparaisons, les outils déjà cités devrait suffire, la suite cufflinks avec cuffcompare, DESeq, GATK etc

    galaxy propose déjà plusieurs options de visualisation, pour les fichiers pour lesquels c'est possible, en cliquant sur le nom du fichier dans l'historique tu devrais voir apparaître un bouton vizualise
    Nous les geeks, c'est pas qu'on a une case en moins, c'est juste qu'on compte à partir de zéro.
    Plus les choses changent, plus elles restent les mêmes

  10. #10
    Nouveau Candidat au Club
    Homme Profil pro
    Stagiaire en Bioinformatique
    Inscrit en
    Juillet 2014
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Stagiaire en Bioinformatique

    Informations forums :
    Inscription : Juillet 2014
    Messages : 5
    Points : 1
    Points
    1
    Par défaut
    Bonjour Gardyen,

    Merci pour vos informations. Je suis entrain de procéder à une analyse, je revienderai vers vous si besoin pour avoir plus de détails.

    Merci de votre aide !!

    M.S

Discussions similaires

  1. Réponses: 1
    Dernier message: 25/08/2014, 16h38
  2. Recherche livre pour gestion et analyse des données
    Par tatane355 dans le forum Excel
    Réponses: 4
    Dernier message: 04/05/2013, 10h25
  3. Réponses: 0
    Dernier message: 14/05/2012, 19h21
  4. Réponses: 2
    Dernier message: 06/05/2011, 20h55
  5. Aide pour l'analyse d'un problème de gestion de temps
    Par PAINCO dans le forum Décisions SGBD
    Réponses: 8
    Dernier message: 03/06/2005, 15h49

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo