2 pièce(s) jointe(s)
Beatifulsoup scrapping forum
Bonjour,
j'essaie actuellement de collecter tous les messages et les id de ces messages d'un forum: http://forum.doctissimo.fr/medicamen...ujet_953_1.htm
j'ai réussi à le faire avec des messages normaux(i.e qui sont pas une réponse d'un autre message) et je sais pas comment le faire pour les autres messages voila un exemple du message
Pièce jointe 473722
et voila mon code :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
|
from bs4 import BeautifulSoup
from a import *
import urllib.request
page=urllib.request.urlopen("http://forum.doctissimo.fr/medicaments/Neuroleptiques/souhaite-arreter-vousdes-sujet_953_1.htm")
strpage=page.read().decode(page.headers.get_content_charset())
soup=BeautifulSoup(strpage,'lxml')
u=soup.prettify()
v=soup.find_all('div','post_content')
for i in range(len(v)):
x=unidecode(v[i].contents[0].contents[0])
print(x) |
voila le resultat de mon code :
Pièce jointe 473725Pièce jointe 473725
comme vous pouvez le voir ca affiche les messages "normaux" mais pas les autres.