Problème avec HTMLparser

**LuckyMajor** · 03/06/2013, 14h37

Bonjour,

dans le cadre d'un projet, j'ai besoin de parser avec HTMLparser un fichier HTML, dont voici un extrait :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
 
<TR>
	<TD VALIGN="top"><B>Date of Result</B></TD>
	<TD COLSPAN="2"><B>Fri Feb 01 20:53:02 2013</B></TD>
</TR>
                <TR>
<TD>MLST clonal complex affiliation</TD><TD colspan="2"><strong>CC30</strong></TD>
</TR>

je souhaite uniquement récupérer certaines informations qui sont suivies d'un titre, comme par exemple le cas de la date juste au dessus. je me suis servi de booléen mais cela ne marche que si les informations se situent sur la même ligne, comme pour le cas du CC30

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
def handle_data(self,data):
	#recuperation de la date
	if self.booleandate == 1 :
		self.date = data
		print "date : ",self.date
		self.booleandate = 0
	if data == "Date of Result":
		self.booleandate=1
 
	#recuperation du complexe clonale
	if self.booleanCC == 1 :
		self.complexclonale = data
		print "complexclonale : ",self.complexclonale
		self.booleanCC = 0
	if data == "MLST clonal complex affiliation" :
		self.booleanCC = 1

le print pour le complexclonale renvoie la bonne valeur, mais le print de la date me retourne des espaces, et j'ai pu remarqué que la fonction handle_data récupéré des espaces et des tabulations à cet endroit du fichier et pas uniquement que le texte. J'ai tenté de contourner la récupération de ces espaces, mais aucun moyen. Quelqu'un aurait-il une solution s'il vous plaît ?

Merci d'avance pour votre aide.

Un jeune étudiant bioinformaticien qui commence à désespérer

Problème avec HTMLparser

Python

Mode arborescent

Discussions similaires

Partager

Partager