Parser une page html, problème balise

**srt101** · 06/12/2013, 14h58

Bonjour à tous,
je ne suis pas sûre de l’endroit où doit être ce message, mais bon je tente quand même

alors voilà, je voudrai récupérer le texte de cette page

du coup après avoir essayé plusiuers solution (dont beautiful soup), j'ai décidé d'utiliser simplement les regex.
mon problème, est qu'avec le code suivant, il ne me prend que certain paragraphe :/

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
import re, urllib
fichierDest=open ("corpusViePub.txt","a")
htmlSource = urllib.urlopen("http://discours.vie-publique.fr/notices/083001590.html").read()
linksList = re.findall('<p>.*?<\p>',htmlSource)
for link in linksList:
	print str(link)
	fichierDest.write(str(link.replace('<br />','\n').replace('<p>','\n').replace('</p>',''))) 
fichierDest.close()

par exemple dans le code html j'ai :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
<p>Monsieur le Président,<br />Mesdames et messieurs,</p>
<p><br />Le 23 janvier dernier, il y a quasiment quatre mois, j'ai confié à Monsieur Jean...</p>
<p>e rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a per...</p>

le script python ne me renvoie que :
Monsieur le Président,
Mesdames et messieurs,

Le rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a permis d'aboutir à des conclusions importantes. Avant d'entrer dans le vif du sujet, je veux donc, cher Jean Mounet, vous remercier très chaleureusement pour la rigueur et la qualité du travail accompli sous votre direction.

Bref, il me zappe le premier paragraphe ...
quelqu'un aurait une idée ???
merci d'avance

Parser une page html, problème balise

Python

Mode arborescent

Discussions similaires

Partager

Partager