IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

module LWP::Simple et expressions régulières


Sujet :

Bioinformatique Perl

  1. #1
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut module LWP::Simple et expressions régulières
    Bonjour,

    J'aimerais retrouver des informations sur une page du net.
    Je recherche la bonne page que j'ouvre et lis.


    La page

    http://www.ncbi.nlm.nih.gov/entrez/v...&val=115385275

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    <div class='recordbody'><div class="sequence"><a name="locus_115385275"></a><div class="localnav"><ul class="locals"><li><a href="#comment_115385275" title="Jump to the comment section of this record">Comment</a></li><li><a href="#feature_115385275" title="Jump to the feature table of this record">Features</a></li><li><a href="#sequence_115385275" title="Jump to the sequence of this record">Sequence</a></li></ul></div>
    <pre class="genbank">LOCUS       XM_001209185            3771 bp    mRNA    linear   PLN 28-SEP-2006
    DEFINITION  Aspergillus terreus NIH2624 DNA-directed RNA polymerase II 138 kDa
                polypeptide (ATEG_01820) mRNA, complete cds.
    ACCESSION   XM_001209185
    VERSION     XM_001209185.1  GI:115385275
    KEYWORDS    .
    SOURCE      Aspergillus terreus NIH2624
      ORGANISM  <a href=http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=341663>Aspergillus terreus NIH2624</a>
                Eukaryota; Fungi; Ascomycota; Pezizomycotina; Eurotiomycetes;
                Eurotiales; Trichocomaceae; mitosporic Trichocomaceae; Aspergillus.
    REFERENCE   1  (bases 1 to 3771)
      AUTHORS   Birren,B., Lander,E., Galagan,J., Nusbaum,C., Devon,K., Henn,M.,
                Ma,L.-J., Jaffe,D., Butler,J., Alvarez,P., Gnerre,S., Grabherr,M.,
                Kleber,M., Mauceli,E., Brockman,W., Rounsley,S., Young,S.,
                LaButti,K., Pushparaj,V., DeCaprio,D., Crawford,M., Koehrsen,M.,
                Engels,R., Montgomery,P., Pearson,M., Howarth,C., Larson,L.,
                Luoma,S., White,J., Alvarado,L., Kodira,C., Zeng,Q., Oleary,S.,
                Yandava,C., Denning,D., Nierman,B., Milne,T. and Madden,K.
      CONSRTM   The Broad Institute Genome Sequencing Platform
      TITLE     Annotation of the Aspergillus terreus NIH2624 genome
      JOURNAL   Unpublished
    REFERENCE   2  (bases 1 to 3771)
      AUTHORS   Birren,B., Lander,E., Galagan,J., Devon,K., Nusbaum,C., Henn,M.,
                Borowsky,M., Jaffe,D., Butler,J., Alvarez,P., Gnerre,S.,
                Grabherr,M., Kleber,M., Mauceli,E., Brockman,W., Rounsley,S.,
                Young,S., LaButti,K., Pushparaj,V., DeCaprio,D., Crawford,M.,
                Koehrsen,M., Engels,R., Montgomery,P., Pearson,M., Howarth,C.,
                Kodira,C., Zeng,Q., Yandava,C., Oleary,S. and Alvarado,L.
      TITLE     Direct Submission
      JOURNAL   Submitted (02-SEP-2005) Broad Institute of MIT and Harvard, 320
                Charles Street, Cambridge, MA 02141, USA
    REFERENCE   3  (bases 1 to 3771)
      AUTHORS   Denning,D. and Anderson,M.
      TITLE     Direct Submission
      JOURNAL   Submitted (02-SEP-2005) The University of Manchester, Oxford Road,
                Manchester M13 9PT, UK
    REFERENCE   4  (bases 1 to 3771)
      AUTHORS   Nierman,W.C.
      TITLE     Direct Submission
      JOURNAL   Submitted (02-SEP-2005) The Institute for Genomic Research, 9712
                Medical Center Drive, Rockville, MD 20850, USA
    <a name="comment_115385275"></a>COMMENT     PROVISIONAL <a href=http://www.ncbi.nlm.nih.gov/RefSeq/>REFSEQ</a>: This record has not yet been subject to final



    Je voudrais retrouver tous les articles


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
                    my %Reference = "";
                    my %Auteurs = "";
                    my %Titre = "";
                    my %Journal = "";
                    my $Html = get("http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=$Gi")or print "IMPOSSIBLE D OUVRIR LA PAGE\n";
     
                    my $a = 0;
     
                    if ($Html =~ /\s*REFERENCE/)
                    {
                            $a++;
                            ($Reference{$a}) = ($Html =~ /\s*REFERENCE\s*([\w\(\)\s]+)\n/);
                            ($Auteurs{$a}) = ($Html =~ /\s*AUTHORS\s*([\w\(\)\,\.]+)\ /); # ne prend que le premier nom
                            ($Titre{$a}) = ($Html =~ /\s*TITLE\s*([\w\(\)\s]+)\n/);
                            ($Journal{$a}) = ($Html =~ /\s*JOURNAL\s*([\w\(\)\s\-]+)\n/);
                            print "\n $a Ref $Reference{$a} \tAut $Auteurs{$a} \tTit $Titre{$a} \tJou $Journal{$a} FIN\n\n\n";
                    }

    J'obtiens

    1 Ref 1 (bases 1 to 3771) Aut Birren,B., Tit Annotation of the Aspergillus terreus NIH2624 genome
    JOURNAL Unpublished
    REFERENCE 2 (bases 1 to 3771) Jou Unpublished
    REFERENCE 2 (bases 1 to 3771) FIN

    J'ai essayé avec le module WWW::Search de PubMed mais je dois retrouver les articles référencés pour un Gi bien particulier et non des articles trouvés par une requête générale. Si j'utilise le Gi comme mot clé pour la recherche dans PubMed, je ne retrouve évidemment que les articles publiés or j'aimerais récupérer toutes les références présentes sur la page citée plus haut.

    Merci beaucoup,


    Jasmine,
    -- Jasmine --

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    tu veux recuperer quoi exactement .
    Ce script te permet déjà d'extraire la partie genbank et d'en creer un fichier temporaire que tu pourra detruire apres.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    #!/usr/bin/perl -w
     
    use strict; 
    use warnings; 
    use LWP; 
     
    my $browser = LWP::UserAgent->new; 
    my $url = "http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=115385275"; 
    my $response = $browser->get($url, [ 'query' => 'mime',  'mode' => 'all' ]); 
    die "Couldn't get $url" unless defined $response; 
    my $resp = $response->content; 
     
    my $fichier_genbank_temp = "temp_genbank.txt";
    open (FILE, ">$fichier_genbank_temp") or die ("impossible de creer le fichier $fichier_genbank_temp $!");
    my ($genbank) = $resp =~ /.+<pre class=\"genbank\">(.+?)<\/pre>.+/msgi;
    print FILE $genbank; 
    close (FILE);
    Tu peux donc soit utiliser un module bioperl pour parser le fichier genbank créer. Ou bien le parser toi même en essayant d'utiliser les regex.

  3. #3
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Merci pour ta réponse,


    J'ai réussi à faire ce que je voulais d'une autre manière un peu différente et cela fonctionne.
    Je recopie dans un fichier texte la page http que je lis et analyse ligne par ligne. C'est plus lent mais au moins j'y suis arrivée. Est-ce une mauvaise façon de procéder?


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
                    my $Html = get("http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=$Gi")or print "IMPOSSIBLE D OUVRIR LA PAGE\n";
                    my $OutFile = FileHandle->new (">P:/Perl/scripts/Files/Articles.txt");
                    my $InFile = "P:/Perl/scripts/Files/Articles.txt";
                    print  $OutFile ($Html);
     
                    open (InFile,$InFile) or die "Can't open File file\n";
     
            	while ($Ligne=<InFile>)
            	{
     
                  ...


    Merci,


    Jasmine,
    -- Jasmine --

  4. #4
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    peux tu montrer ton script, histoire de partager avec tout le monde!!!
    Sinon est ce une bonne methode? pourquoi pas, c'est le même principe, ce qui est long, c recuperer la page, mais on peut pas faire autrement.

  5. #5
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    #!/usr/local/bin/perl
     
     
    #------------------------------------ InsertArticleDB.pl -----------------------------------#
    #       Ce programme interroge GenBank et donne en retour la liste des articles présents
    #       pour les Acc de la base de données  (ouvre la page html grâce au Gi)
    #       Perl insert ces valeurs dans la base de données après avoir crée 2 nouveaux
    #       champs "Articles" et "LiensArticles"
    #------------------------------------ InsertArticleDB.pl -----------------------------------#
     
     
    use strict;
    use warnings;
    use FileHandle;
    use Time::localtime;
    use DBI;
    use Mysql;
    use LWP::Simple;
    use WWW::Search;
    use Bio::Perl;
     
     
     
    # Paramètre de temps
    #---------------------
    my $Depart = ctime();
     
     
    # Paramètre de la base de données
    #----------------------------------
    my $driver   = "mysql";
    my $server   = "localhost";
    my $database  = "BaseDeDonnees";
    my $url      = "DBI:$driver:$database:$server";
    my $DBconnect;
    my $user     = "";
    my $password = "";
    ($user, $password) = PASS();
    my @Table=("Table1","Table2","Table3","Table4","Table5","Table6");;
     
     
     
    # CONNECTION A LA BASE DE DONNEES
    #----------------------------------
    $DBconnect=DBI->connect( $url, $user, $password ) or die "Failure!\n";
     
     
    # CONNECTION A PubMed
    #----------------------------------
     my $PubMed = new WWW::Search ('PubMed');
     
     
    # Recherche des ACC dans la DB
    #------------------------------
    for (my $a=0; $a<@Table; $a++)
    {
     
     
            my $sql0 = "ALTER TABLE `$Table[$a]` ADD `Articles` TEXT NOT NULL   ;";
            my $sth0 = $DBconnect->prepare($sql0) or print "erreur de preparation SQL\n";
            $sth0->execute or die "Could not execute SQL statement ... maybe invalid?";
            $sth0->finish;
     
            my $sql1 = "ALTER TABLE `$Table[$a]` ADD `LiensArticles` TEXT NOT NULL   ;";
            my $sth1 = $DBconnect->prepare($sql1) or print "erreur de preparation SQL\n";
            $sth1->execute or die "Could not execute SQL statement ... maybe invalid?";
            $sth1->finish;
     
     
            my $sql = "SELECT Gi FROM $Table[$a]";
            my $sth = $DBconnect->prepare($sql) or print "erreur de preparation SQL\n";
            $sth->execute or die "Could not execute SQL statement ... maybe invalid?";
            my @row;
            while (@row=$sth->fetchrow_array)
            {
     
                    my $Gi = $row[0];
     
                    my $Html = get("http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=$Gi")or print "IMPOSSIBLE D OUVRIR LA PAGE\n";
                    my $OutFile = FileHandle->new (">P:/Perl/scripts/Files/Articles.txt");
                    my $InFile = "P:/Perl/scripts/Files/Articles.txt";
                    print  $OutFile ($Html);
     
                    open (InFile,$InFile) or die "Can't open File file\n";
                    my $Articles = "";
                    my $LiensArticles = "";
                    my $Ligne;
                    my $Ok = 0;
                    my $URL = "";                                                      # (DEFINITION[.\n]+)\n<a name="
            	while ($Ligne=<InFile>)
            	{
     
            	        if ($Ligne =~ /\s*REFERENCE/)
                            {
                                    $Ok=1;
                                    $URL = "";
                            }
            	        elsif ($Ligne =~ /\s*<a name=/)
                            {
                                    $Ok=0;
                            }
                            elsif ($Ligne =~ /PUBMED   <a href=http:/)
                            {
                                    my ($url)= ($Ligne =~ /\s*\<a\ href\=(http\:\/\/www\.ncbi\.nlm\.nih\.gov\/entrez\/query\.fcgi\?cmd\=Retrieve\&db\=pubmed\&dopt\=Abstract\&query_hl\=1\&list_uids\=\d*)\>\d*\<\/a\>\n/);
                                    $Articles = $Articles.$url."\n\n";
                                    $LiensArticles = $LiensArticles.$url."\n";
     
                            }
                            if ($Ok==1)
                            {
                                    $Articles=$Articles.$Ligne."\n";
                            }
     
            	}
                    $Articles = quotemeta($Articles);
                    $LiensArticles = quotemeta($LiensArticles);
                    my $sql2 = "UPDATE $Table[$a] SET  Articles = '$Articles', LiensArticles = '$LiensArticles' WHERE Gi like '$Gi'";
                    my $sth2 = $DBconnect->prepare($sql2) or print "erreur de preparation SQL\n";
                    $sth2->execute or die "Could not execute SQL statement ... maybe invalid?";
             }
    }
     
     
    # DECONNECTION DE LA BASE DE DONNEES
    #-----------------------------------
    $DBconnect->disconnect();
     
     
    #BILAN
    #------
    print "\n\n\n---------------\n--- TEMPS ---\n---------------\n";
    my $Fin = ctime();
    print "\nDépart\t=>".$Depart."\nFin\t=>".$Fin."\n";
     
     
    close;
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
    sub PASS
            {
                    my $InFilePass = "P:/Perl/InfoPass.txt";
                    my $Ligne;
                    my $user;
                    my $password;
     
    	       open (File,"$InFilePass")  or die "Can't open file\n";
     
    	       while ($Ligne=<File>)
    	       {
                            if ($Ligne =~ /^user/)
                            {
                                    ($user)=($Ligne =~ /^user = (\w+)\s/)
                            }
                            if($Ligne =~ /^password = (\w+)\s/)
                            {
                                    ($password)=($Ligne =~ /^password = (\w+)\s/)
                            }
                    }
     
                    close (File);
                    return ($user, $password);
            }


    -- Jasmine --

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Expressions régulières pas si simple en Delphi
    Par kidathom dans le forum Débuter
    Réponses: 4
    Dernier message: 29/04/2008, 18h32
  2. Expression régulière simple
    Par NerOcrO dans le forum Général JavaScript
    Réponses: 3
    Dernier message: 14/05/2007, 11h32
  3. Expression régulière simple
    Par ecthelion dans le forum Langage
    Réponses: 6
    Dernier message: 27/03/2007, 10h52
  4. [RegEx] Simple expression régulière pour ereg_replace
    Par aurapp dans le forum Langage
    Réponses: 6
    Dernier message: 12/03/2006, 12h34
  5. [RegEx] Aide sur une expression régulière toute simple
    Par tchoumak dans le forum Langage
    Réponses: 3
    Dernier message: 29/11/2005, 15h46

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo