Expression Réguliére: récupérer une partie de lien html

**ffontain** · 30/11/2007, 16h07

Bonjour à tous.

Je viens vous embetter, car je n'arrive pas à trouver de solution pour une expression régulière, toute aide serait la bienvenue.

Je dois récupérer un mot d'un lien html, et le probléme est que je ne vois pas comment utiliser la négation pour que ca marche.

Exemple de lien: <a href="http://fr.wikipedia.org/wiki/Crawler" link="blabla" ... >

Ce que je veux recuperer: Crawler

Mon expression régulière:
lienRegExp = re.compile('<a href=["\']http://fr.wikipedia.org/wiki/(.*?)["\']>', re.IGNORECASE)

#On stocke toutes les url dans la liste des urls non crawlees

for url in lienRegExp.findall(source_html):

urlsNonCrawles.append(url)
print url

Ce qu'il me sort: Crawler" class="link

Mon probléme: il me faudrait une négation je pense, comme: [^\"], mais je ne sais pas comment faire... et je ne trouve rien sur votre site (ou sinon, je comprend pas).

Si quelqu'un a une solution, je suis preneur. Merci

**ffontain** · 04/12/2007, 01h39

C'est bon, j'ai trouvé, la solution est dans chilkat.

Suffit d'aller sur la page, c'est un module crawler pour python. Voilou.

Expression Réguliére: récupérer une partie de lien html

Zope Python

Discussions similaires

Partager

Partager