Bonjour à tous.
Je viens vous embetter, car je n'arrive pas à trouver de solution pour une expression régulière, toute aide serait la bienvenue.
Je dois récupérer un mot d'un lien html, et le probléme est que je ne vois pas comment utiliser la négation pour que ca marche.
Exemple de lien: <a href="http://fr.wikipedia.org/wiki/Crawler" link="blabla" ... >
Ce que je veux recuperer: Crawler
Mon expression régulière:
lienRegExp = re.compile('<a href=["\']http://fr.wikipedia.org/wiki/(.*?)["\']>', re.IGNORECASE)
#On stocke toutes les url dans la liste des urls non crawlees
for url in lienRegExp.findall(source_html):
urlsNonCrawles.append(url)
print url
Ce qu'il me sort: Crawler" class="link
Mon probléme: il me faudrait une négation je pense, comme: [^\"], mais je ne sais pas comment faire... et je ne trouve rien sur votre site (ou sinon, je comprend pas).
Si quelqu'un a une solution, je suis preneur. Merci
Partager