Bonjour,

Avec ce script, je récupère la source d'une page web :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
$file=fopen($URL,"r" );
	if(!$file)
	{
		echo "<p>Impossible d\"ouvrir le fichier</p>.\n";
		exit;
	}
	while(!feof($file))
	{
		$line .= fgets($file,1024);
	}
je lui applique différent traitement afin de n'avoir que le texte brut

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
// nettoyage du code
	// supprimer les retour a la ligne
	$line = str_replace("\n","",$line);
	// supprimer les retour chariot
	$line = str_replace("\r","",$line);
	// supprimer les tabulations
	$line = str_replace("\t","",$line);
	// supprimer les double espaces
	$line = str_replace("  ","",$line);
	// retirer les balise HTML
	$line = strip_tags($line);
après traitement je récupère du texte comme ceci :

adresse : mairie, 3,&nbsp;rue de Verneuil, 27130&nbsp;Les&nbsp;Barils<br>rue : rue de Verneuil,<br>code postal : 27130<br>ville : Les<br><br>adresse : maisons des associations, avenue Lénine, 76700&nbsp;Gonfreville-l’Orcher<br>
Malgré cela j'ai des caractères bizarres dans le texte brut comme des "&nbsp;" pour des espaces écrit en html ou encore des "’" pour des apostrophes.

Comment éviter ce genre de chose ? car après j'utilise des regex et ca fait des bugs a cause de ce genre de chose.