Extraire des données d'un fichier html

Version imprimable

Bonjour,
Je suis grand débutant en python et je cherche à extraire des données d'une page html.
Je me suis dirigé vers urllib2, peut-être à tord...

Je souhaite extraire ces données et les réutiliser ensuite pour les insérer dans un fichier .tex.
Il faut donc que je les stocke.

Après 48h de recherche, je suis revenu au point de départ avec un code qui ne marche pas, je ne comprends pas pourquoi. Le voici :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 #!/usr/bin/python # -*- coding: utf-8 -*- #avec python2.7 pour urllib import urllib2 u = urllib2.urlopen("http://www.meteociel.fr/observations-meteo/temps-reel.php") fich = u.read() u.close() f = open("data1.txt","w") f.write(fich) f.close() import sys, re # on sélectionne le texte entre les balises rec_cont=re.compile('<meta name="keywords".*?français">',re.M|re.S) with open("data1.txt",'r') as f : #ouverture du fichier data1 lignes=f.read() n=0 for k in rec_cont.findall(lignes) : n+=1 with open("data2.txt", 'w') as g: g = open("data2.txt", 'w') contenu=str(rec_cont.findall(ligs)) g.write(contenu) g.close()
je souhaite donc réutiliser les données de contenu dans un deuxième temps, ce que je n'arrive pas à faire.
La cerise sur le gâteau, c'est que le fichier data1.txt est bien créé mais pas data2.txt !
Si quelqu'un peut me donner des idées (simples car j'essaie de m'y mettre)...

07/06/2013, 14h40
Julien N
Salut,

Je n'utilise jamais les expressions régulières, donc je ne pourrais pas t'être d'un grand secours sur ce point. Cependant je note deux/trois trucs étranges dans ton code:
1- Pourquoi manipuler 2 fichiers textes?
2- Pourquoi ouvrir plusieurs fois le fichier data2.txt avec l'attribut 'w'?

Sur le premier point, c'est peut-être un choix motivé de ta part, donc passons.

Le deuximème point est plus problématique. Tu ouvre un fichier nommé data2.txt en écriture seule ('w') et donc tu écrase tout ce qui pouvait y être inscrit au préalable...

Ensuite, le with open suivit d'un autre open... Bref. Je remplacerais ceci:
Code:

1 2 3 4 5 6 7 for k in rec_cont.findall(lignes) : n+=1 with open("data2.txt", 'w') as g: g = open("data2.txt", 'w') contenu=str(rec_cont.findall(ligs)) g.write(contenu) g.close()
Par cela:
Code:

1 2 3 4 5 6 g = open("data2.txt", 'w') for k in rec_cont.findall(lignes) : n+=1 contenu=str(rec_cont.findall(ligs)) g.write(contenu) g.close()
Chez moi, avec python 2.7 également, je peux lire ta page web, mais rec_cont.findall(lignes) correspond à une liste vide. Mais comme je te l'ai dit plus haut, les expressions régulières c'est pas mon truc.

Ciao,

Ju
07/06/2013, 14h51
marco056

Citation:

Envoyé par Julien N

Salut,

Je n'utilise jamais les expressions régulières, donc je ne pourrais pas t'être d'un grand secours sur ce point. Cependant je note deux/trois trucs étranges dans ton code:
1- Pourquoi manipuler 2 fichiers textes?
2- Pourquoi ouvrir plusieurs fois le fichier data2.txt avec l'attribut 'w'?

Ju

Merci pour ces remarques.
Effectivement, pour le premier point, c'est un choix qui me permet de voir ce qui se passe pas à pas (je manipule ensuite les données et en phase d'apprentissage, j'aime bien comprendre...).
Pour le deuxième point, c'est effectivement une erreur de ma part.

Sinon, mon fichier data2.txt est effectivement vide car rec_cont.findall(lignes) est vide, ce qui ne me paraît pas normal.
07/06/2013, 14h55
Julien N

Ok, parfait.

Je peux peut-être t'aider quand même pour ce qui est du traitement de la page html. Du moins te proposer une béquille!

Qu'est-ce que tu cherche à récupérer exactement?

Ju
07/06/2013, 15h03
marco056

En fait pour l'instant, j'essaie de trouver des applications utiles à ce que je vais enseigner à la rentrée prochaine :mrgreen:

Pour l'instant, je joue donc avec de petits fichiers et ce site m'a donné une idée :

http://snouffy.free.fr/blog-fr/index...mater-en-LaTeX

Le fichier proposé ne marche pas chez moi et j'ai donc décidé de m'en faire un, dans l'objectif de m'entraîner.

Je souhaite donc à partir d'une recette par exemple (interdiction de rire !), la réécrire en LaTeX. (Pour ce qui est du passage en LaTeX, je n'ai pas de souci.)

Pour cela, j'ai besoin des différentes informations : titre, temps de préparation, ... et j'ai besoin de les stocker dans des variables afin de les insérer dans mon fichier tex final.

Pas mal du tout comme idée!

Pour ma part je me suis entrainé avec la récupération de données boursières sur des sites comme yahoo finance.

Je n'ai pas été très loin cependant. Je te conseille de jeter un oeil du côté de HTMLParser. Ce module python permet de récupérer "facilement" des infos depuis un code html.

Voici un exemple avec la bourse:
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 # -*- coding:Utf-8 -*- import urllib2 import HTMLParser class Parser(HTMLParser.HTMLParser): """ Parser test """ def __init__(self): HTMLParser.HTMLParser.__init__(self) self.FindOuverture = False self.OuvertureValue = 0.0 def handle_data(self,data): if self.FindOuverture: self.OuvertureValue = float(data.replace(',','.')) self.FindOuverture = False if data == 'Ouverture:': self.FindOuverture = True def DisplayData(self): print ("Ouverture: " + str(self.OuvertureValue)) if __name__ == "__main__": parser = Parser() webPage = urllib2.urlopen("http://fr.finance.yahoo.com/q?s=SPM.MI") html = webPage.read() parser.feed(html) parser.DisplayData() parser.reset() parser.close()
Ici j'ai copié l'architecture d'un code trouvé sur internet. Je créé une classe Parser qui hérite de la classe HTMLParser.HTMLParser. Tu vois que dans le constructeur (def __init__(self) ), j'appel le constructeur de HTMLParser.HTMLParser. J'ai créé une methode handel_data me permettant de traiter mes données (ici presque rien d'ailleurs).

Dans mon main, je fourni au parser la page html à traiter grâce à la méthode .feed provenant de HTMLParser.HTMLParser (l'héritage).

Le but du programme étant de récupérer la valeur boursière à l'ouverture d'un titre en particulier.

Le problème c'est que le site à analyser doit être "bien fait". Cela ne marche pas avec le site météo que tu as donné. Sans doute à cause de la carte.

Je pourrais pas vraiment t'aider plus que cela, ça dépasse mes compétences.. :D

Ciao

Merci, c'est un peu compliqué pour moi pour l'instant.
Je n'ai pas tout compris au niveau des classes et héritages mais je vais m'y mettre...

Pour l'instant, j'ai enregistré sous forme de fichier texte la page que tu m'as indiquée, ce qui donne le code suivant :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 # -*- coding:Utf-8 -*- import urllib2 import HTMLParser class Parser(HTMLParser.HTMLParser): """ Parser test """ def __init__(self): HTMLParser.HTMLParser.__init__(self) self.FindOuverture = False self.OuvertureValue = 0.0 def handle_data(self,data): if self.FindOuverture: self.OuvertureValue = float(data.replace(',','.')) self.FindOuverture = False if data == 'Ouverture:': self.FindOuverture = True def DisplayData(self): print ("Ouverture: " + str(self.OuvertureValue)) if __name__ == "__main__": parser = Parser() webPage = urllib2.urlopen("http://fr.finance.yahoo.com/q?s=SPM.MI") html = webPage.read() parser.feed(html) parser.DisplayData() parser.reset() parser.close() f = open("data1.txt","w") f.write(html) f.close()
Ce que je voudrais à partir du fichier texte data1.txt (ou de la page directement), c'est par exemple extraire et enregistrer la chaîne : cours détaillé pour SAIPEM de la ligne :

<title>SPM.MI : cours détaillé pour SAIPEM- Yahoo! France Finance</title>

Merci en tous cas pour cet exemple avec htmlParser

13/06/2013, 00h30
marco056

[Résolu]

Bon, j'ai réussi ce que je voulais avec BeautifulSoup.

Par contre, je ne vois pas comment éditer mon premier message afin de le noter comme résolu.

Edit : trouvé !
13/06/2013, 10h13
Julien N

:ccool:

Tu seras peut-être intéressé par cet article:

http://sametmax.com/comment-parser-d...vec-des-regex/
02/07/2013, 21h38
marco056

Il y a des choses un peu plus complètes en anglais.