Presque bien formé

Bonjour.

Je travaille sur des dumps de base de donnée de Wikipedia & co. Donc, du bon gros fichier XML (1Go & plus).
La structure de base, sa donne ça :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
 
<page>
   <id> ... </id>
   <title> ... </title>
   <revision>
      <id> ... </id>
      <timestamp> ... </timestamp>
      <text> Plein de texte qui me pose des problèmes </text>
   </revision>
</page>
Le problème se situe au niveau de la balise <text> et de son contenu. En effet, dans les pages Wiki, on trouve parfois (souvent) du HTML. Ca ne pose généralement aucun problème, jusqu'au moment ou un petit malin écrit un truc comme ça :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
<nowiki><math></nowiki>
Et là, c'est le drame. Du point de vue du parser XML (Woodstox dans mon cas), le tag "<math>" n'est pas fermé correctement et une exception est lancée, ce qui arrête net le parsing.

Est il possible d'une manière ou d'une autre de contourner ce problème? J'aimerais si possible éviter l'ajout "préventif" de balise CDATA. C'est à dire ne pas traiter 10 Go de XML une première fois pour mettre des balises CDATA, et une 2ème pour récupérer l'information.

Merci d'avance pour votre aide

Format d'échange (XML, JSON...) Java

Mode arborescent

Discussions similaires

Partager

Partager