Convertir du code HTML en texte brut
Bonjour,
Avec ce script, je récupère la source d'une page web :
Code:
1 2 3 4 5 6 7 8 9 10
| $file=fopen($URL,"r" );
if(!$file)
{
echo "<p>Impossible d\"ouvrir le fichier</p>.\n";
exit;
}
while(!feof($file))
{
$line .= fgets($file,1024);
} |
je lui applique différent traitement afin de n'avoir que le texte brut
Code:
1 2 3 4 5 6 7 8 9 10 11
| // nettoyage du code
// supprimer les retour a la ligne
$line = str_replace("\n","",$line);
// supprimer les retour chariot
$line = str_replace("\r","",$line);
// supprimer les tabulations
$line = str_replace("\t","",$line);
// supprimer les double espaces
$line = str_replace(" ","",$line);
// retirer les balise HTML
$line = strip_tags($line); |
après traitement je récupère du texte comme ceci :
Citation:
adresse : mairie, 3, rue de Verneuil, 27130 Les Barils<br>rue : rue de Verneuil,<br>code postal : 27130<br>ville : Les<br><br>adresse : maisons des associations, avenue Lénine, 76700 Gonfreville-l’Orcher<br>
Malgré cela j'ai des caractères bizarres dans le texte brut comme des " " pour des espaces écrit en html ou encore des "’" pour des apostrophes.
Comment éviter ce genre de chose ? car après j'utilise des regex et ca fait des bugs a cause de ce genre de chose.