Récupération de l'encodage d'un url avec Curl

**yule** · 14/09/2010, 00h21

Bonjour,

J'essaye de crawler la page d'un site externe par son url, j'ai fait un bout de code avec curl qui me permet de récupérer le texte HTML d'une page.

de cette sorte en partie...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL, $_url);
curl_setopt ($ch, CURLOPT_USERAGENT, $user_agent);
//curl_setopt ($ch, CURLOPT_COOKIEJAR, "c:\cookie.txt");
curl_setopt ($ch, CURLOPT_HEADER, 1);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt ($ch, CURLOPT_TIMEOUT, 120);
$code = curl_exec ($ch);
curl_close($ch);
$this->_txt=$code;
			//echo $this->_txt;

Mon unique problème est la différence des Charsets/Encodage (ISO et UFT-8) que je ne sais pas comment récupérer / identifier pour me dire une chose pourtant simple... et qui me fait déchanter...

Si le site indexé utilise un encodage UFT-8, alors indexe sa page sous ce format...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<?php 
 
 
If ($charsetdusitevisite = "iso-8859-1" )
{
echo'
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">'; 
}
 
else {
echo'<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">';
} 
 
// Mais comment récupérer cette info pour la traiter dans une condition simple ??
?>

D'avance merci
yule

**sabotage** · 14/09/2010, 00h46

Il existe mb_detect_encoding mais le résultat n'est pas garanti.
Si on pouvait savoir a coup sur l'encodage d'une donnée, il n'existerait plus de problème d'encodage.

**yule** · 15/09/2010, 10h48

Hello,

Oui ça fonctionne pas mal... merci pour l'astuce !

Par contre, j'ai pas réussi à extraire le text html d'une page distante, il existe plusieurs options mais le Curl encore une fois semble la meilleure fonction

Connaissez-vous un bon exemple de récup d'un contenu extrait avec un nettoyage de la chaine pour enlever le code html

D'avance merci
Yule

**sabotage** · 15/09/2010, 11h16

Il existe la fonction strip_tags()

Récupération de l'encodage d'un url avec Curl [PHP 5.0]

Langage PHP

Vue hybride

Discussions similaires

Partager

Partager