Bonsoir tout le monde, je suis debutante en python et j'ai un problème d'expression regulière :
En fait, je dois recuperer le code HTML de la page d'un site, et recuperer une information. Ca se presente de la forme :
plein de choses qui ne m'interesse pas ..... " identifier"="Nom du domaine ( info que je veux recuperer)" .... plein de choses qui ne m'interesse pas.
Donc, j'ai ecrit :
je pense que mon expression regulière est fausse, pourriez vous m'aider svp ?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10 import urllib from re import * def getproteinedomain(p): f = urllib.urlopen("http://pfam.sanger.ac.uk//protein/%s" %p) texte = f.read() i=string.index(texte,"identifier") expressReg=re.compile('''*identifier *= *"(.+?)"') express=expressReg.search(texte,i) return express
En fait, je ne sais pas comment dire dans l'expression regulière que c'est forcement "identifier" = " ce qui m'interesse" qu'il faut que je recupère ...
Merci d'avance.
Partager