Bonjour,
J'essaye de parser une page HTML préalablement nettoyée à l'aide de Tidy. Malheureusement le contenu étant très mal généré, les tags ne sont pas toujours utilisés à bon escient et je n'arrive pas à accéder aux données que je désirs.
Voici un exemple de code à parser :
J'arrive sans problème à accéder au contenu du SPAN, mais j'aimerais pouvoir récupérer facilement le contenu entre la fin du SPAN et le BR.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13 <ol start="2" type="I"> <li> <span class="o1"><span class="ps" title='intransitive verb'>intransitive verb</span></span> to finish, to end;<br /> [<span class="i">contract, lease</span>] to run out;<br /> <span class="b">le film finit bien</span> the film has a happy ending;<br /> <span class="b">ça va mal ~!</span> it'll end in tears!;<br /> <span class="b">~ par faire</span> to end up doing;<br /> <span class="b">ils finiront bien par céder</span> they're bound to give in in the end;<br /> <span class="b">en ~ avec qn/qch</span> to have done with sb/sth;<br /> <span class="b">finissons-en!</span> let's get it over with! </li> </ol>
Existe-t-il un moyen ?
La seule solution que j'entrevois, c'est de récupérer le contenu du SPAN, puis le contenu total, et de faire un substring de la chaîne la plus complète.
D'avance merci.







Répondre avec citation
Partager