Parser une page html, problème balise

Bonjour à tous,
je ne suis pas sûre de l’endroit où doit être ce message, mais bon je tente quand même :)
alors voilà, je voudrai récupérer le texte de cette page

du coup après avoir essayé plusiuers solution (dont beautiful soup), j'ai décidé d'utiliser simplement les regex.
mon problème, est qu'avec le code suivant, il ne me prend que certain paragraphe :/
Code:

1 2 3 4 5 6 7 8 import re, urllib fichierDest=open ("corpusViePub.txt","a") htmlSource = urllib.urlopen("http://discours.vie-publique.fr/notices/083001590.html").read() linksList = re.findall('.*?<\p>',htmlSource) for link in linksList: print str(link) fichierDest.write(str(link.replace(' ','\n').replace('','\n').replace('',''))) fichierDest.close()
par exemple dans le code html j'ai :
Code:

1 2 3 Monsieur le Président, Mesdames et messieurs, Le 23 janvier dernier, il y a quasiment quatre mois, j'ai confié à Monsieur Jean... e rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a per...
le script python ne me renvoie que :
Monsieur le Président,
Mesdames et messieurs,

Le rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a permis d'aboutir à des conclusions importantes. Avant d'entrer dans le vif du sujet, je veux donc, cher Jean Mounet, vous remercier très chaleureusement pour la rigueur et la qualité du travail accompli sous votre direction.

Bref, il me zappe le premier paragraphe ...
quelqu'un aurait une idée ???
merci d'avance :D

peut être à cause de l'expression régulière :

Code:

re.findall('.*?<\p>',htmlSource)

qui devrait plutôt être :

Code:

.*?

Bonjour Thetopic...
quand j'ai lu ton message je me suis dis si c'est ça je me pends...
et ben j'ai plus qu'à aller chercher la corde :oops:
ça fait des jours que je tourne en rond à cause de ça :traine:

encore merci :D