Bonjour,

J'essaye de parser une page HTML préalablement nettoyée à l'aide de Tidy. Malheureusement le contenu étant très mal généré, les tags ne sont pas toujours utilisés à bon escient et je n'arrive pas à accéder aux données que je désirs.

Voici un exemple de code à parser :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
 
<ol start="2" type="I">
	<li>
		<span class="o1"><span class="ps" title='intransitive verb'>intransitive verb</span></span> to finish, to end;<br />
		[<span class="i">contract, lease</span>] to run out;<br />
		<span class="b">le film finit bien</span> the film has a happy ending;<br />
		<span class="b">ça va mal ~!</span> it'll end in tears!;<br />
		<span class="b">~ par faire</span> to end up doing;<br />
		<span class="b">ils finiront bien par céder</span> they're bound to give in in the end;<br />
		<span class="b">en ~ avec qn/qch</span> to have done with sb/sth;<br />
		<span class="b">finissons-en!</span> let's get it over with!
	</li>
</ol>
J'arrive sans problème à accéder au contenu du SPAN, mais j'aimerais pouvoir récupérer facilement le contenu entre la fin du SPAN et le BR.

Existe-t-il un moyen ?

La seule solution que j'entrevois, c'est de récupérer le contenu du SPAN, puis le contenu total, et de faire un substring de la chaîne la plus complète.

D'avance merci.