[débutant] XML ou expressions régulières ?

**R3iTt0R** · 28/10/2004, 10h11

Bonjour,

Je ne connais pas le XML, je ne fais que me renseigner pour le moment.

J'ai besoin d'extraire une chaine de caractère inclus entre des balises HTML.
J'ai lu que je pouvais faire ça avec le XML (ou XPath).
On peut réaliser la même chose avec les expressions régulières, en PHP par exemple.

Cela est-il plus rapide avec XML ? ou peut-être plus simple ? ou tout simplement plus puissant ?
Ou n'est-ce qu'une question de point de vue et de compétences ??

Merci de vos réponses

**GrandFather** · 28/10/2004, 11h36

Bonjour,

Pour récupérer des données dans un fichier HTML avec XPath, il faut que certaines contraintes soient respectées : fichier "bien formé" au sens XML avec balise ouvrantes->balises fermantes, attributs entre guillemets, etc. Ces contraintes sont rarement respectées dans les fichiers HTML couramment rencontrés. Elles le sont par contre dans les fichiers XHTML qui sont du HTML avec le formalisme de XML. Tu as donc deux méthodes pour extraire des informations d'un fichier HTML :
1°) Convertir le HTML en XHTML (des outils comme Tidy le font très bien) puis utiliser XPath pour extraire les infos.
2°) Utiliser les expressions régulières
Selon la complexité du HTML et les informations que tu dois extraire, les deux méthodes ont leurs avantages et leurs inconvénients.

**R3iTt0R** · 28/10/2004, 15h10

Dans mon cas c'est le fichier des favoris, donc généré par un explorateur internet (I.E., Mozilla, Firefox, ...)
Je pense qu'ils respectent les contraintes dont tu parles...

Il doit cependant être plus intéressant de travailler avec XPath qu'avec les expressions régulières (en termes de programmation je veux dire).

**GrandFather** · 28/10/2004, 15h37

Surtout beaucoup plus simple ! imagine que tu as un fichier avec cette structure :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<favoris>
  <monSitePerso>
    <url>...</url>
  </monSitePerso>
  <favori>
    <url>...</url>
  </favori>
  <favori>
    <url>...</url>
  </favori>
  <favori>
    <url>...</url>
  </favori>
</favoris>

Tu veux récupérer le contenu des balises <url>, mais uniquement celles contenues dans les balises <favori>. En Xpath, enfantin. Avec les expressions régulières, beaucoup plus compliqué car il faut préciser le contexte dans le pattern.

**R3iTt0R** · 28/10/2004, 15h51

Je veux bien imaginer tous les fichiers que tu veux, avec toutes les structures que tu veux... mais ça ne se passe pas aussi idéalement

Le fichier généré automatique comporte des balises <DT>, <p>, <DL> et certaines autres. Il y a en tout 5 balises différentes je crois.

Je précise que ce n'est pas moi qui génère ce fichier, mais l'explorateur internet.

Je ne vois pas trop comment tu veux que je me retrouve avec un fichier comportant les structures que tu cites...

**GrandFather** · 28/10/2004, 15h58

Ce n'était qu'un exemple...

C'était pour illustrer le fait que, dans le cas d'un fichier XML, il est infiniment plus pratique de passer par XPath que par des expressions régulières, sauf dans le cas d'extraction très simples.
Attention, dans ton cas, le fait qu'il soit généré par IE, Mozilla, etc. ne signifie en rien qu'il soit bien formé et parcourable par requêtes XPath.

**R3iTt0R** · 28/10/2004, 16h01

Ok d'acc...

D'autant que je viens de m'apercevoir que certaines balises ne sont pas fermées.

Dans ce cas là, est-il possible de transformer ce fichier HTML, en fichier XML pour ensuite pouvoir le parcourir avec des requêtes XPath ?

[Remarque de dernière minute]
j'ai cette ligne là au début du fichier :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part