Parser une page html, problème balise
Bonjour à tous,
je ne suis pas sûre de l’endroit où doit être ce message, mais bon je tente quand même :)
alors voilà, je voudrai récupérer le texte de cette page
du coup après avoir essayé plusiuers solution (dont beautiful soup), j'ai décidé d'utiliser simplement les regex.
mon problème, est qu'avec le code suivant, il ne me prend que certain paragraphe :/
Code:
1 2 3 4 5 6 7 8
| import re, urllib
fichierDest=open ("corpusViePub.txt","a")
htmlSource = urllib.urlopen("http://discours.vie-publique.fr/notices/083001590.html").read()
linksList = re.findall('<p>.*?<\p>',htmlSource)
for link in linksList:
print str(link)
fichierDest.write(str(link.replace('<br />','\n').replace('<p>','\n').replace('</p>','')))
fichierDest.close() |
par exemple dans le code html j'ai :
Code:
1 2 3
| <p>Monsieur le Président,<br />Mesdames et messieurs,</p>
<p><br />Le 23 janvier dernier, il y a quasiment quatre mois, j'ai confié à Monsieur Jean...</p>
<p>e rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a per...</p> |
le script python ne me renvoie que :
Monsieur le Président,
Mesdames et messieurs,
Le rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a permis d'aboutir à des conclusions importantes. Avant d'entrer dans le vif du sujet, je veux donc, cher Jean Mounet, vous remercier très chaleureusement pour la rigueur et la qualité du travail accompli sous votre direction.
Bref, il me zappe le premier paragraphe ...
quelqu'un aurait une idée ???
merci d'avance :D