Récupérer des adresses sur Delicious

**rambc** · 11/01/2010, 10h29

Bonjour,
j'ai le code HTML suivant à repérer :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
<a rel="nofollow"
class="taggedlink "
href="http://code.google.com/p/spyderlib/" >
    spyderlib -  Project Hosting on Google Code
</a>

Je voudrais mettre cela dans un dictionnaire du type :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
myDeliciousTag["spyderlib -  Project Hosting on Google Code"]
=
"http://code.google.com/p/spyderlib/"

Quelqu'un a-t-il une méthode toute simple à proposer ?

**kango** · 11/01/2010, 11h14

bonjour,

en utilisant une expression régulière ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
import re
 
adresse = '''<a rel="nofollow"
class="taggedlink "
href="http://code.google.com/p/spyderlib/" >
    spyderlib -  Project Hosting on Google Code
</a>'''
 
adresse = adresse.replace('\n',' ') #pour traiter une chaine sans saut de lignes
 
pattern = re.compile(r'^<a .*href="(.*)".*>[ ]*(.*)</a>$')
s = pattern.search(adresse)
print s.groups()

retourne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

('http://code.google.com/p/spyderlib/', 'spyderlib -  Project Hosting on Google Code ')

**eyquem** · 11/01/2010, 11h15

Bonjour,

regex

Le seul problème est de savoir si tu veux récupérer uniquement ce lien, un certain nombre de liens ou tous les liens dans une page html. Et en fonction de quels critères un lien est désirable ou non, c’est à dire quels sont les éléments autour d’un lien désirable dans la page html qui permettent son repérage, avec la stabilité/variabilité de ces éléments.

Par exemple, s’il faut remplacer "nofollow" par certains noms seulement ou n’importe quel nom,... tu le feras toi-même. Pour le moment je propose ceci à l’arrache:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import re
 
d = {}
 
ch = '''blablablalkjhkjjgdc
<a rel="nofollow"
class="taggedlink "
href="http://code.google.com/p/spyderlib/" >
    spyderlib -  Project Hosting on Google Code
</a>
suiteblablabla'''
 
RE = '<a rel="nofollow"\r?\n'\
     +'class="taggedlink "\r?\n'\
     +'href=("http:.+?") >\r?\n'\
     +' *([^\r\n]+?)\r?\n</a>'
 
pat = re.compile(RE)
 
print pat.search(ch).groups()
 
d.update((pat.search(ch).groups(),))
 
print
print 'd =',d

('"http://code.google.com/p/spyderlib/"', 'spyderlib - Project Hosting on Google Code')

d = {'"http://code.google.com/p/spyderlib/"': 'spyderlib - Project Hosting on Google Code'}

Au passage:
merci pour la correction de mon écriture hideuse des chaînes que tu m’as conseillée il y a quelques jours. J’adopte la forme ’''.....’'' . Jusqu’à ta remarque je n’avais pas compris comment fonctionnait cette forme et son intérêt, et ne m’y étais jamais intéressé de près.

Cependant ici pour la définition de RE, obligation d’utiliser celle que j’ai utilisée, parce que je veux spécifier un caractère ’\r’ optionnel devant le ’\n’, de façon à rendre le code apte à traiter un texte dans lequel il y aurait aussi bien ’\r\n’ que ’\n’ comme fin de ligne possible.

**eyquem** · 11/01/2010, 11h25

Correctif

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import re
 
myDeliciousTag = {}
 
ch = '''blablablalkjhkjjgdc
<a rel="nofollow"
class="taggedlink "
href="http://code.google.com/p/spyderlib/" >
    spyderlib -  Project Hosting on Google Code
</a>
suiteblablabla'''
 
RE = '<a rel="nofollow"\r?\n'\
     +'class="taggedlink "\r?\n'\
     +'href=("http:.+?") >\r?\n'\
     +' *([^\r\n]+?)\r?\n</a>'
 
pat = re.compile(RE)
 
u,v = pat.search(ch).groups()
 
myDeliciousTag.update(((v,u),))
 
print
print 'myDeliciousTag =',myDeliciousTag

**rambc** · 11/01/2010, 11h31

Merci.

Effectivement je cherchais tous les liens . J'avais oublié de le dire.

Je ferais ce soir, car là je dois bosser, une version avec le module http qui ira sur le net chercher la page.

**eyquem** · 11/01/2010, 13h09

Différence entre group() et groups():

- groups()[0] n’est pas la chaîne matchante avec la totalité de la RE , comme c’est le cas pour group(0)
groups()[0] est le premier groupe capturé

- groups() ne permet pas de sélectionner plusieurs groupes. On peut écrire pat.search(ch).groups()[0] par exemple,
mais pas pat.search(ch).groups()[0,1] et donc pas pat.search(ch).groups()[1,0]

- group(0) équivaut à group() et renvoie la chaîne matchante totale c’est à dire matchant avec la RE dans son entier

- Une RE qui capture 10 groupes permettra d’écrire
pattern.search().group(2,5,1,10,9,6,7,9,2) par exemple (remarquer répétition de 2 et 9)
Ici on utilise cette possibilité pour présenter à l’update un tuple dans l’ordre inverse de leur capture:
pat.search(ch).group(2,1)

J’ai remplacé la forme update((pat.search(ch).group(2,1),))
par update([pat.search(ch).group(2,1)]) , moins étrange

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
RE = '<a rel="nofollow"\r?\n'\
     +'class="taggedlink "\r?\n'\
     +'href=("http:.+?") >\r?\n'\
     +' *([^\r\n]+?)\r?\n</a>'
 
pat = re.compile(RE)
 
print  pat.search(ch).group(2,1)
 
myDeliciousTag.update([pat.search(ch).group(2,1)])
 
print
print 'myDeliciousTag =',myDeliciousTag

**rambc** · 11/01/2010, 18h53

Le cod suivant me renvoie : " u,v = pat.search(ch).groups() AttributeError: 'NoneType' object has no attribute 'groups' "

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#!/usr/bin/env python
#coding=utf-8
import re
ch = """<a rel="nofollow" class="taggedlink " href="http://forum.ubuntu-fr.org/" >Forum Ubuntu-fr.org</a>"""
 
print ch
 
RE = '<a rel="nofollow"\r?\n'\
     +'class="taggedlink "\r?\n'\
     +'href=("http:.+?") >\r?\n'\
     +' *([^\r\n]+?)\r?\n</a>'
 
pat = re.compile(RE)
 
u,v = pat.search(ch).groups()
 
myDeliciousTag.update(((v,u),))
 
print
print 'myDeliciousTag =',myDeliciousTag

Récupérer des adresses sur Delicious

Python

Vue hybride

Discussions similaires

Partager

Partager