[Système] Analyser une page HTML de favoris
Bonjour à tous!
Je cherche a créer un parser pour récupérer une liste de favoris exportée depuis un navigateur, mais j'ai un peu de mal avec les regexp :?
Voici le code de la page HTMl
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
|
<!DOCTYPE NETSCAPE-Bookmark-file-1>
<!-- This is an automatically generated file.
It will be read and overwritten.
Do Not Edit! -->
<TITLE>Bookmarks</TITLE>
<H1>Bookmarks</H1>
<DL><p>
<DT><H3 FOLDED ADD_DATE="1202562528">Blogs</H3>
<DL><p>
<DT><A HREF="http://www.fredcavazza.net/" ADD_DATE="1202562610" LAST_VISIT="1202562610" LAST_MODIFIED="1202562610">FredCavazza.net</A>
<DT><A HREF="http://fredericdevillamil.com/developpement/" ADD_DATE="1202562974" LAST_VISIT="1202562974" LAST_MODIFIED="1202562974">http--fredericdevillamil.com-developpement-</A>
<DT><A HREF="http://www.insideria.com/" ADD_DATE="1202562698" LAST_VISIT="1202562698" LAST_MODIFIED="1202562698">InsideRIA</A>
</DL><p>
<DT><H3 FOLDED ADD_DATE="1202562984">Digg-like</H3>
<DL><p>
<DT><A HREF="http://www.digg.com/" ADD_DATE="1202563342" LAST_VISIT="1202563342" LAST_MODIFIED="1202563342">Digg - All News, Videos, & Images</A>
<DT><A HREF="http://www.scoopeo.com/" ADD_DATE="1202563068" LAST_VISIT="1202563068" LAST_MODIFIED="1202563068">Scoopeo - La une</A>
</DL><p>
<DT><A HREF="http://www.google.fr/" ADD_DATE="1202562516" LAST_VISIT="1202562516" LAST_MODIFIED="1202562516">Google</A>
</DL><p> |
et voici le début de mon parser :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
|
<?php
//Classe qui va permettre d'importer/exporter les favoris
class BookmarkManager {
//Constructeur
function BookmarkManager(){
}
//Pour importer les favoris
function import($listURL){
$filehandle=fopen($listURL,'r');
$texte = "";
while(!feof($filehandle)) {
$texte.=fgets($filehandle, 500); // Max 500 chars
}
echo $texte;
preg_match_all("|<DL>([><.]*)<DT>([><.]*)</DL>|i",$texte,$resultat);
echo "<br>";
print_r($resultat);
}
}
$bm = new BookmarkManager();
$bm->import("../bookmarks_IE.htm");
?> |
Quelle est l'expression regulieres que je dois utiliser dans le preg_match_all pour récupérer le contenu de toutes mes balises DL et DT ??
Merci de votre aide!