parser pour le plaisir

**marco056** · 28/08/2017, 03h10

Bonsoir,
Toujours pour le plaisir, je souhaite tenter de parser des fichiers.
Le programme que j'employais jusqu'à présent ne fonctionne plus suite à une refonte du site "marmiton" (refonte qui a lieu régulièrement tous les 6 mois ou tous les ans).
Derrière, j'utilise LaTeX qui me crée un pdf de la recette.
Je vous propose le programme suivant qui fonctionne mais qui me semble peu efficace (basé sur ce que je faisais jusqu'à présent).
J'imagine qu'il y a beaucoup mieux via les regex (je suis allergique) ou HTMLParser.
Si vous avez des idées, je suis preneur...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
#!/usr/bin/python
# -*- coding: utf-8 -*-
 
#url = "http://www.marmiton.org/recettes/recette_flan-aux-oeufs-maison_86967.aspx"
url = "http://www.marmiton.org/recettes/recette_cookies-maison_86989.aspx"
 
import urllib
from bs4 import BeautifulSoup
import json
 
f = urllib.request.urlopen(url)
src = f.read()
g = open("recette_0.txt","wb")
g.write(src)
g.close()
 
soup = BeautifulSoup(src,"lxml")
ensemble = soup.find( "script", type = "application/ld+json" )
recette = (str(ensemble))[58:-22]
print(recette)
 
dic_recette = json.loads(recette)
print(type(recette))
print(dic_recette)
print(type(dic_recette))
print(dic_recette["name"])
print(dic_recette["recipeYield"])

Bien entendu, si qqn souhaite le programme une fois fini, je le livrerai.

**VinsS** · 28/08/2017, 08h25

Salut,

Que pense-tu de ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
 
# -*- coding: utf-8 -*-
 
import urllib.request
import json
from html.parser import HTMLParser
 
def get_page(url):
    try:
        content = urllib.request.urlopen(url).read()
        return str(content.decode('utf-8', 'replace'))
    except Exception as why:
        print('urllib2 error: %s, %s' % (url, why))
        return False
 
def get_recipe(link):
    page = get_page(link)
    if page:
        parser = Parser()
        parser.feed(page)
        if parser.recipe:
            miam(parser.recipe)
 
def miam(jsn):
    recette = json.loads(jsn)
    print("\n * %s\n" % recette["name"])
    ing = ', '.join(recette["recipeIngredient"])
    print("Dépends: %s\n" % ing) 
    print(recette["recipeInstructions"])
 
class Parser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.recipe = False
        self.injson = False
 
    def handle_starttag(self, tag, attrs):
        if tag == "script":
            # attrs doit être de la forme "[('type', 'application/ld+json')]"
            if attrs and 'application/ld+json' in attrs[0]:
                self.injson = True
 
    def handle_data(self, data):
        if self.injson:
            self.clean_data(data)
            self.injson = False
 
    def clean_data(self, txt):
        begin = '{"@context"'
        end = ',"aggregateRating"'
        r = begin + txt.split(begin)[1]
        self.recipe = r.split(end)[0] + "}"
 
if __name__ == "__main__":
    get_recipe("http://www.marmiton.org/recettes/recette_cookies-maison_86989.aspx")

Je pense que ce doit être nettement plus rapide que avec BeautifulSoup.

Bon appétit.

**marco056** · 28/08/2017, 14h23

Merci VinsS,
En effet, c'est beaucoup plus rapide.
Je vais tenter de comprendre et de m'approprier tout cela.

**marco056** · 28/08/2017, 21h54

Merci encore, je suis parvenu à faire ce que je voulais.
La partie suivante me pose encore problème mais j'y travaille :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
class Parser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.recipe = False
        self.injson = False
 
    def handle_starttag(self, tag, attrs):
        if tag == "script":
            # attrs doit être de la forme "[('type', 'application/ld+json')]"
            if attrs and 'application/ld+json' in attrs[0]:
                self.injson = True
 
    def handle_data(self, data):
        if self.injson:
            self.clean_data(data)
            self.injson = False
 
    def clean_data(self, txt):
        begin = '{"@context"'
        end = ',"aggregateRating"'
        r = begin + txt.split(begin)[1]
        self.recipe = r.split(end)[0] + "}"

**marco056** · 30/08/2017, 23h30

Bonsoir,
J'ai maintenant 2 méthodes

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import urllib.request
import bs4 as BS
html = urllib.request.urlopen("http://www.marmiton.org/recettes/recette_flan-aux-oeufs-maison_86967.aspx").read()
html = str(html.decode('utf-8', 'replace'))
soup = BS.BeautifulSoup(html,"html")
import re
 
texte = soup.find_all("script",type={"application/ld+json"})
print("texte : ", texte)
print()
recherche = re.compile("(?<=\{)(.*?)(?=\})", re.DOTALL)
match = recherche.search(str(texte))
print(match.group(1))
print()
dico="{"+match.group(1)+"}}"
print("dico : ", dico)
print()
 
from collections import UserDict
 
vrai_dico = UserDict(eval(dico))
print("vrai_dico : ", vrai_dico)
print(vrai_dico["name"])

Cette dernière est un peu tirée par les cheveux, mais bon.

parser pour le plaisir [Python 3.X]

Python

Vue hybride

Discussions similaires

Partager

Partager