Bonjour à tous,
je ne suis pas sûre de l’endroit où doit être ce message, mais bon je tente quand même
alors voilà, je voudrai récupérer le texte de cette page
du coup après avoir essayé plusiuers solution (dont beautiful soup), j'ai décidé d'utiliser simplement les regex.
mon problème, est qu'avec le code suivant, il ne me prend que certain paragraphe :/
par exemple dans le code html j'ai :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 import re, urllib fichierDest=open ("corpusViePub.txt","a") htmlSource = urllib.urlopen("http://discours.vie-publique.fr/notices/083001590.html").read() linksList = re.findall('<p>.*?<\p>',htmlSource) for link in linksList: print str(link) fichierDest.write(str(link.replace('<br />','\n').replace('<p>','\n').replace('</p>',''))) fichierDest.close()
le script python ne me renvoie que :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3 <p>Monsieur le Président,<br />Mesdames et messieurs,</p> <p><br />Le 23 janvier dernier, il y a quasiment quatre mois, j'ai confié à Monsieur Jean...</p> <p>e rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a per...</p>
Monsieur le Président,
Mesdames et messieurs,
Le rapport qui a été remis ce matin et les présentations auxquelles vous venez d'assister prouvent que cette mission a été conduite avec efficacité et détermination et qu'elle a permis d'aboutir à des conclusions importantes. Avant d'entrer dans le vif du sujet, je veux donc, cher Jean Mounet, vous remercier très chaleureusement pour la rigueur et la qualité du travail accompli sous votre direction.
Bref, il me zappe le premier paragraphe ...
quelqu'un aurait une idée ???
merci d'avance![]()
Partager