Problème de parsing html et d'encoding

**flapili** · 14/03/2018, 16h44

Bonjour, je tente de parser une page web pour mon application, mais mes tests ne sont pas très concluant...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import urllib
import urllib.request
from http.cookiejar import CookieJar
import chardet
 
 
url = 'https://www.dofus.com/fr/mmorpg/encyclopedie/equipements/14080-amulette-seculaire'
 
req = urllib.request.Request(url, None, {'User-Agent': 'Mozilla/5.0 (X11; Linux i686; G518Rco3Yp0uLV40Lcc9hAzC1BOROTJADjicLjOmlr4=) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'en-US,en;q=0.8','Connection': 'keep-alive'})
cj = CookieJar()
 
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
response = opener.open(req)
html = response.read()
response.close()
 
print(chardet.detect(html))

et j'obtient {'encoding': None, 'confidence': 0.0, 'language': None} ..
J'ai tenter de décoder en utf-8 mais .. UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte.

Pourtant dans le code source de la page <meta http-equiv="content-type" content="text/html; charset=UTF-8">...

Alors est-ce que j'ai mal compris un truc et je suis à coté de la plaque ou bien ?

**wiztricks** · 14/03/2018, 20h01

Salut,

Envoyé par flapili

Alors est-ce que j'ai mal compris un truc et je suis à coté de la plaque ou bien ?

Peut être que le contenu a été zippé.
Ce qui doit être indiqué dans les headers.

- W

**marco056** · 14/03/2018, 23h44

Ceci ne te conviendrait pas ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
import requests, bs4
 
url = 'https://www.dofus.com/fr/mmorpg/encyclopedie/equipements/14080-amulette-seculaire'
 
sess = requests.session()
r = sess.post(url)
print(r.text)
#
#soup = bs4.BeautifulSoup(r.text, 'html.parser')
#print(soup)

**flapili** · 15/03/2018, 20h18

Bonjour,

Envoyé par wiztricks

Salut,
Peut être que le contenu a été zippé.
Ce qui doit être indiqué dans les headers.
- W

J'ai cherché dans le header mais je n'est rien trouvé à se sujet, faut dire que pour le moment en html je sais pas trop quoi chercher

marco056 ton code marche impec, j'ai l'impression que request est mieux que celui du module urllib.
Bon maintenant il ne me reste plus qu'a faire mon parsing ... sa va être joyeux ça encore >.<

**wiztricks** · 15/03/2018, 21h35

Envoyé par flapili

J'ai cherché dans le header mais je n'est rien trouvé à se sujet, faut dire que pour le moment en html je sais pas trop quoi chercher

C'est ce que vous avez demandé au serveur en écrivant 'Accept-Encoding': 'gzip, deflate, sdch' dans le header du message que vous lui avez expédié... Donc il devrait vous retourner un message HTTP contenant du HTML compressé encodé en UTF-8 ou en Latin-1.

- W

**flapili** · 15/03/2018, 22h38

En effet, j'avais sortie un vieil user-agent du placard sans trop vérifier.

Merci

**wiztricks** · 16/03/2018, 09h44

Envoyé par flapili

En effet, j'avais sortie un vieil user-agent du placard sans trop vérifier.

Si vous voulez du HTML codé en utf-8, il faut non seulement le demander mais aussi vérifier que vous avez bien reçu le message dans le format attendu.
Donc en bricolant le code que vous avez posté, çà donnerait:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import urllib
import urllib.request
from http.cookiejar import CookieJar
import chardet
 
 
url = 'https://www.dofus.com/fr/mmorpg/encyclopedie/equipements/14080-amulette-seculaire'
 
req = urllib.request.Request(url, None,
       {'User-Agent': 'Mozilla/5.0 (X11; Linux i686; G518Rco3Yp0uLV40Lcc9hAzC1BOROTJADjicLjOmlr4=) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36',
#        'Accept-Encoding': 'gzip, deflate, sdch',
        'Accept': 'text/html',
        'Accept-Charset': 'utf-8',
        )
cj = CookieJar()
 
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
response = opener.open(req)
print('Content-Encoding:', response.headers.get('Content-Encoding'))
print('Content-Type:', response.headers['Content-Type'])
html = response.read()
html.decode('utf-8')

Et vous pouvez jouer à supprimer le commentaire pour voir ce qui change.

Ce sont les headers qu'on envoie et qu'on reçoit qui font la richesse et la versatilité du protocole HTTP.
Le HTML, des documents échangés avec ce protocole, est beaucoup plus simple (même s'il sera bien plus pénible de décortiquer la page pour y récupérer les informations souhaitées).

- W

**marco056** · 15/03/2018, 23h39

Envoyé par flapili

Bonjour,

J'ai cherché dans le header mais je n'est rien trouvé à se sujet, faut dire que pour le moment en html je sais pas trop quoi chercher

marco056 ton code marche impec, j'ai l'impression que request est mieux que celui du module urllib.
Bon maintenant il ne me reste plus qu'a faire mon parsing ... sa va être joyeux ça encore >.<

Grâce à BufferBob (un grand merci à lui encore s'il passe par ici), j'ai énormément progressé depuis une semaine. Si je peux t'aider à mon tour...
Un exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import requests, bs4
 
url = 'https://www.dofus.com/fr/mmorpg/encyclopedie/equipements/14080-amulette-seculaire'
 
sess = requests.session()
r = sess.post(url)
#print(r.text)
#
soup = bs4.BeautifulSoup(r.text, 'html.parser')
#print(soup)
 
liste_content = soup.find_all("div", class_ = "ak-content")
#for elem in liste_content:
#    print(elem.text)
 
for elem in liste_content:
    tag = elem.find_all("span", class_ = "ak-linker")
    for el in tag:
        print(el.text)

Le résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
Galet acajou
Poudre glaciale
Poil d'aisselle de Missiz Frizz
Pédoncule de Mérulor
Oeil de Cycloïde
Queue de Sinistrofu
Bandelette du Comte Harebourg
Œil de verre
Coiffe Séculaire
Amulette Séculaire
Ceinture Séculaire

Problème de parsing html et d'encoding [Python 3.X]

Réseau/Web Python

Vue hybride

Discussions similaires

Partager

Partager