Bonjour à tous,
Pour me faciliter le boulot je souhaiterais faire d'un annuaire en ligne (celui de l'éducation nationale pour ne rien cacher) un joli fichier csv que je pourrais travailler dans excel.
Pour ce faire j'ai "aspiré" cette annuaire en ligne avec un logiciel, rien d'illégal je vous rassure et me retrouve avec pour faire simple un dossier qui contient une page .html par établissement et chacune de ces pages des informations qui m'intéressent sur cette établissement (adresse, tel ...)
J'ai donc plus de 60.000 pages html dont je souhaiterais extraire des informations.
Cela se décompose donc en 3 axes pour lesquels je manque de compétence et pour lesquels je compte un peu (beaucoup) sur vos lumières :
1- parcourir les fichiers html un par un, en fait ceux-ci sont écrits dans un multitude de sous-répertoires.
2- la partie regex pure, à savoir capturer les contenus qui m'intéressent, je vous met juste après la structure des données et ce que je souhaite récupérer.
3- l'écriture dans un fichier csv de tous ces résultats.
Pour le contenu à capturer voici comment cela se présente, fort heureusement toujours de la même manière dans chaque page, j'ai mis en gras les valeurs qui m'intéressent avec des étoiles autour:
Code html : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17 <h2 class="titre-fiche-nom-etab"> *Le nom de l'établissement* </h2> <div class="titre-fiche-type-etab"> *Le type (école, collège...)* </div> <div class="annuaire-etablissement-infos"> <p> *Si etablissement privé ou public* <br/> <br/> *numéro et nom de rue*<br/>*code postal* <span class="nom-commune">*ville*</span><br/> Tél. *04 74 38 40 77* / Fax. *04 74 38 08 65*<br/><br/> /* cela ne me sert pas <a href="/pid24327/formulaire-contacter-etablissement.html?code=0010002X">Contacter l'établissement</a><br/> fin de l'inutile*/ <a target="_blank" href="*url du site*">Consulter le site de l'établissement</a><br/><a target="_blank" href="http://geolocalisation.onisep.fr/moncollege/01-ain/amberieu-en-bugey/college/college-saint-exupery.html">Localiser l'établissement</a><br/><br/> Code établissement : *1234567A* <br/></p> </div>
Je ne sais pas trop dans quelle direction partir - quelles fonctions utiliser - à vote bon coeur !
Partager