[XML] Comment parser ?

**GLDavid** · 15/07/2004, 19h41

Bonjour

J'avoue que le titre est vague, je vais tâcher de vous expliquer. Je dois récupérer certaines infos à partir de fichiers XML. La structure de ce document est telle que :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
 
<?xml version="1.0" encoding="UTF-8"?>
<protein_summary execution_date="Thu Jul 15 10:55:53 2004" program_version="ProteinProphet.pl v2.0 AKeller August 15, 2003">
<protein_group group_number="1" probability="1.00">
      <protein protein_name="UniRef100_Q8IUB0" n_indistinguishable_proteins="10" probability="1.00" percent_coverage="3.2" unique_stripped_peptides="LPLQDVYK" group_sibling_id="a" total_number_peptides="1">
         <annotation protein_description="CTCL tumor antigen [Homo sapiens]"/>
         <indistinguishable_protein protein_name="UniRef100_Q9H2I7">
            <annotation protein_description="EF1a-like protein [Homo sapiens]"/>         </indistinguishable_protein>
         <indistinguishable_protein protein_name="UniRef100_Q96RE1">
            <annotation protein_description="Translation elongation factor 1 alpha 1-like 14 [Homo sapiens]"/>         </indistinguishable_protein>
         <indistinguishable_protein protein_name="UniRef100_Q8TBL1">
            <annotation protein_description="Hypothetical protein [Homo sapiens]"/>         </indistinguishable_protein>
         <indistinguishable_protein protein_name="UniRef100_Q16577">
            <annotation protein_description="Oncogene [Homo sapiens]"/>         </indistinguishable_protein>
         <indistinguishable_protein protein_name="UniRef100_Q96CD8">
            <annotation protein_description="Hypothetical protein [Homo sapiens]"/>         </indistinguishable_protein>
         <indistinguishable_protein protein_name="UniRef100_Q9NZS6">
            <annotation protein_description="Glucocorticoid receptor AF-1 specific elongation factor [Homo sapiens]"/>         </indistinguishable_protein>
         <indistinguishable_protein protein_name="UniRef100_Q96C29">
            <annotation protein_description="Hypothetical protein [Homo sapiens]"/>         </indistinguishable_protein>
         <indistinguishable_protein protein_name="UniRef100_Q05639">
            <annotation protein_description="Elongation factor 1-alpha 2 [Homo sapiens]"/>         </indistinguishable_protein>
         <indistinguishable_protein protein_name="UniRef100_P04720">
            <annotation protein_description="Elongation factor 1-alpha 1 [Homo sapiens]"/>         </indistinguishable_protein>
         <peptide peptide_sequence="LPLQDVYK" charge="2" initial_probability="0.96" nsp_adjusted_probability="1.00" weight="1.00" is_nondegenerate_evidence="Y" n_tryptic_termini="2" n_sibling_peptides="0.00" n_sibling_peptides_bin="0" n_instances="1" is_contributing_evidence="Y">
         </peptide>
      </protein>
</protein_group>
</protein_summary>

Ce qui m'intéresse plus particluièrement, c'est de récupérer les attributs protein_name et protein_description.
J'ai regardé un peu au niveau des parseurs, mais je dois bien avouer que je débute totalement

. Un exemple de code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
use XML::Parser;
 
# initialize parser and read the file
$parser = new XML::Parser( Style => 'Tree' );
my $tree = $parser->parsefile( "./short.xml" );
 
# serialize the structure
#use Data::Dumper;
#print Dumper( $tree );
 
print "".$tree->{ protein_summary }->{ protein_group }->{ protein=>"protein_name" }."\n";

Mais bon, ce code ne fonctionne pas. Pouvez-vous m'aider à vaincre XML ?

@ ++

**GLDavid** · 15/07/2004, 20h26

Bon, j'ai changé ma stratégie. Je passe par les handlers plutôt que par les arbres (GLDavid, t'es pas écolo !) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
 
use XML::Parser;
 
# initialize the parser
my $parser = XML::Parser->new( Handlers => 
                                     {
                                      Start=>\&handle_start,
                                      End=>\&handle_end,
                                     });
$parser->parsefile( "./short.xml" );
 
my @stack; 
my @tab;
 
# process a start-of-element event: print message about element
#
sub handle_start {
    my( $expat, $protein, %attrs ) = @_;
 
    # ask the expat object about our position
    my $line = $expat->current_line;
 
    # remember this element and its starting position by pushing a
    # little hash onto the element stack
    push( @stack, { protein=>$protein, line=>$line });
 
    if( %attrs ) {
        while( my( $key, $value ) = each( %attrs )) {
            #print "\t$key => $value\n";
            if ($key eq "protein_name") {
            	printf("%s\t%s\n", $key, $value);
            }
        }
    }
 
}
 
# process an end-of-element event
#
sub handle_end {
 
}

Maintenant, je vais tâcer de combiner les attributs protein_name et protein_description et je pense que j'y suis.
Restera plus qu'après d'écrire ça dans un fichier txt. Mais ça, c'est une autre histoire !

@++

**GLDavid** · 15/07/2004, 20h42

Ok, :trouve: . Je suis arrivé à un résultat satisfaisant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
 
use XML::Parser;
 
# initialize the parser
my $parser = XML::Parser->new( Handlers => 
{
Start=>\&handle_start,
End=>\&handle_end,
});
$parser->parsefile( "./short.xml" );
 
my @stack;
 
sub handle_start {
	my( $expat, $protein, %attrs ) = @_;
	push( @stack, { protein=>$protein});
	if( %attrs ) {
		while( my( $key, $value ) = each( %attrs )) {
		if ($key eq "protein_name") {
			my($name) = $value;
			print "$value\t";
			}
		if ($key eq "protein_description") {
			$desc = $value;
			printf("%s\n", $desc);
			}
		}
	}
}
 
sub handle_end {
   #Do nothing ! 
}

Maintenant, place à l'écriture du fichier résultat

.
Et dire que je crachais sur Perl il y a encore quelques mois

!!!
Mea Culpa !!

@ ++

**GLDavid** · 15/07/2004, 21h04

Cher moi-même !

J'ai finalement trouvé la solution de tous tes embarras. Comme tu le vois, c'était finalement pas si compliqué que ça, il suffisait juste de se donner la peine de réfléchir aux codes déjà proposés et de les adapter.
La soluce :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
 
use XML::Parser;
 
# initialize the parser
my $parser = XML::Parser->new( Handlers => 
{
Start=>\&handle_start,
End=>\&handle_end,
});
$parser->parsefile( "./interact-prot.xml" );
 
my @stack;
 
sub handle_start {
	my($name, $desc);
	my( $expat, $protein, %attrs ) = @_;
	push( @stack, { protein=>$protein});
	if( %attrs ) {
		while( my( $key, $value ) = each( %attrs )) {
		if ($key eq "protein_name") {
			$name = $value;
			open FILE, ">>./Result.txt" or die "Peut pas ouvrir Result.txt !!";
			print FILE "$name\t";
			}
		if ($key eq "protein_description") {
			$desc = $value;
			open FILE, ">>./Result.txt" or die "Peut pas ouvrir Result.txt !!";
			print FILE "$desc\n";
			}
		}
	}
}
 
sub handle_end {
   #Do nothing ! 
}

Maintenant, à toi d'en faire ce qu'il te plaira !

@ ++

**Batou** · 02/03/2005, 07h26

yo gldavid,

la vache, t'as lair vachement fort en perl dis-donc : t'as repondu a ton propre mail, avec la solution moins de 1:30 apres avoir poste la question... Trop fort !

Bon, en ce qui me concerne, je dois faire a peu pres la mm chose en html.

Pour ton message, je ne comprends pas ce que sont $expat, $protein et %attrs

Pourrais tu stp me fournir une explication ?

a plus
batou

**GLDavid** · 02/03/2005, 10h09

Ouahhh !! On parle d'un vieux sujet !!

A l'époque j'étais québecois !
En fait, le fichier xml provient de programmes de validation en protéomique que je parsais pour ensuite insérer les données les plus pertinentes dans un SGBDR. Mais d'abord, de les récupérer dans un fichier.
Le temps de repotasser tout ça et je te tiens au courant sur l'algo.

@++

**GLDavid** · 02/03/2005, 10h22

En fait, je vais te passer la documentation sur laquelle je me suis inspiré pour réaliser ceci :
1) http://search.cpan.org/~msergeant/XML-Parser-2.34/Parser.pm
2) http://www.xml.com/pub/a/98/09/xml-perl.html
Le 2ème lien est important pour comprendre les variables que j'ai utilisé (bien que $expat, je m,en sers pas finalement).
J'espère que ça t'aidera.

@++

**Batou** · 03/03/2005, 02h59

Bonjour, re-bonjour,

ok pour les liens, je vais les conserver.
J'ai resolu mon probleme, merci pour ton aide !

Sinon, petite remarque :
les boutons [delestage] et [resolu] ne s'affiche plus dans mon navigateur... (mozilla firefox)
par contre, y a toujours les zones actives, je peux donc cliquer sur le blanc a la place.
C'est normal ca ?

batou, amoureux du lieutenant kuzanagi

[XML] Comment parser ?

Modules Perl

Discussions similaires

Partager

Partager