beautiful soup get content

**napoleon59** · 02/06/2014, 00h56

Bonjour,

J'essaie de récupérer le le contenu de toutes les balises <p> d'une page web.

J'ai écrit le code suivant :

import urllib2
from bs4 import BeautifulSoup

page = urllib2.urlopen('http://www.escalier-escamotable.net').read()
soup = BeautifulSoup(page)
contenu = soup.findAll('p',text=True)

for content in contenu:
print(soup.find('p').getText())

Le problème c'est que çà ne récupère que le premier paragraphe en boucle. Je ne comprend pas pourquoi vous avez pas une piste ?

**wiztricks** · 02/06/2014, 01h16

Salut,
N'oubliez pas la balise code!

Que fait soup.find('p')? Pourquoi faire soup.find('p') alors que ce qui vous intéresse est "contenu"?

Ce que vous vouliez écrire est une chose comme:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
contenu = soup.findAll('p',text=True)
 
for e in contenu:
	print(e.text)

Fatigue? Erreur de logique? Vous vous laissez impressionnez par le monstre?
Encore des coups comme çà et on va vous expliquer gentiment l'intérêt d'un tuto comme le Swinnen...

- W

beautiful soup get content

Python

Vue hybride

Discussions similaires

Partager

Partager