Convertir du code HTML en texte brut

Version imprimable

Bonjour,

Avec ce script, je récupère la source d'une page web :
Code:

1 2 3 4 5 6 7 8 9 10 $file=fopen($URL,"r" ); if(!$file) { echo "Impossible d\"ouvrir le fichier.\n"; exit; } while(!feof($file)) { $line .= fgets($file,1024); }
je lui applique différent traitement afin de n'avoir que le texte brut
Code:

1 2 3 4 5 6 7 8 9 10 11 // nettoyage du code // supprimer les retour a la ligne $line = str_replace("\n","",$line); // supprimer les retour chariot $line = str_replace("\r","",$line); // supprimer les tabulations $line = str_replace("\t","",$line); // supprimer les double espaces $line = str_replace(" ","",$line); // retirer les balise HTML $line = strip_tags($line);
après traitement je récupère du texte comme ceci :

Citation:

adresse : mairie, 3, rue de Verneuil, 27130 Les Barils rue : rue de Verneuil, code postal : 27130 ville : Les adresse : maisons des associations, avenue Lénine, 76700 Gonfreville-l’Orcher 

Malgré cela j'ai des caractères bizarres dans le texte brut comme des " " pour des espaces écrit en html ou encore des "’" pour des apostrophes.

Comment éviter ce genre de chose ? car après j'utilise des regex et ca fait des bugs a cause de ce genre de chose.

17/08/2008, 15h19
sabotage

Tu peux utiliser html_entity_decode() pour les entités HTML comme

je l'utilisais déjà mais après je les remettais, d'où le gros problème ! ;)

j'ai repris mon code et j'ai maintenant quelque chose de correcte

voici le code permettant de passer d'une page HTML en du texte brut :
Code:

1 2 3 4 5 6 7 8 9 // nettoyage du code $line = 'code HTML'; $line = strip_tags($line); $line = html_entity_decode($line); $line = preg_replace('~&#x([0-9a-f]+);~ei', 'chr(hexdec("\\1"))', $line); $line = preg_replace('~&#([0-9]+);~e', 'chr("\\1")', $line); $line = preg_replace('(\n|\r|\t)',' ',$line); $line = preg_replace('/\s\s+/', ' ', $line); return $line;
merci pour ton indication !

++

Arnaud