Convertir du code HTML en texte brut

Bonjour,

Avec ce script, je récupère la source d'une page web :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
$file=fopen($URL,"r" );
	if(!$file)
	{
		echo "<p>Impossible d\"ouvrir le fichier</p>.\n";
		exit;
	}
	while(!feof($file))
	{
		$line .= fgets($file,1024);
	}

je lui applique différent traitement afin de n'avoir que le texte brut

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
// nettoyage du code
	// supprimer les retour a la ligne
	$line = str_replace("\n","",$line);
	// supprimer les retour chariot
	$line = str_replace("\r","",$line);
	// supprimer les tabulations
	$line = str_replace("\t","",$line);
	// supprimer les double espaces
	$line = str_replace("  ","",$line);
	// retirer les balise HTML
	$line = strip_tags($line);

après traitement je récupère du texte comme ceci :

adresse : mairie, 3, rue de Verneuil, 27130 Les Barils rue : rue de Verneuil, code postal : 27130 ville : Les adresse : maisons des associations, avenue Lénine, 76700 Gonfreville-l’Orcher

Malgré cela j'ai des caractères bizarres dans le texte brut comme des " " pour des espaces écrit en html ou encore des "’" pour des apostrophes.

Comment éviter ce genre de chose ? car après j'utilise des regex et ca fait des bugs a cause de ce genre de chose.

Convertir du code HTML en texte brut

Langage PHP

Mode arborescent

Discussions similaires

Partager

Partager