Bonjour,
dans le cadre d'un projet, j'ai besoin de parser avec HTMLparser un fichier HTML, dont voici un extrait :
je souhaite uniquement récupérer certaines informations qui sont suivies d'un titre, comme par exemple le cas de la date juste au dessus. je me suis servi de booléen mais cela ne marche que si les informations se situent sur la même ligne, comme pour le cas du CC30
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 <TR> <TD VALIGN="top"><B>Date of Result</B></TD> <TD COLSPAN="2"><B>Fri Feb 01 20:53:02 2013</B></TD> </TR> <TR> <TD>MLST clonal complex affiliation</TD><TD colspan="2"><strong>CC30</strong></TD> </TR>
le print pour le complexclonale renvoie la bonne valeur, mais le print de la date me retourne des espaces, et j'ai pu remarqué que la fonction handle_data récupéré des espaces et des tabulations à cet endroit du fichier et pas uniquement que le texte. J'ai tenté de contourner la récupération de ces espaces, mais aucun moyen. Quelqu'un aurait-il une solution s'il vous plaît ?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17 def handle_data(self,data): #recuperation de la date if self.booleandate == 1 : self.date = data print "date : ",self.date self.booleandate = 0 if data == "Date of Result": self.booleandate=1 #recuperation du complexe clonale if self.booleanCC == 1 : self.complexclonale = data print "complexclonale : ",self.complexclonale self.booleanCC = 0 if data == "MLST clonal complex affiliation" : self.booleanCC = 1
Merci d'avance pour votre aide.
Un jeune étudiant bioinformaticien qui commence à désespérer
Partager