|
Publicité ' | |||||||||||||||||||||||
|
|
#1 | ||
|
Invité de passage
![]() Développeur multimédia Inscription : décembre 2011 Messages : 1 ![]() |
Bonjour à tous
Voilà, je m'en remet à vous car je bloque depuis plusieurs jours sur une problématique au niveau d'un scraper de contenus distants. Je développe actuellement un réseau social, et je souhaite mettre en place un outil de partage type Facebook. Dès qu'une adresse est entrée dans le champ de partage, une fonction JS exécute une requête AJAX vers un scraper situé dans un fichier PHP. Le scraper fonctionne de la manière suivante : - On récupère le contenu de l'url cible via cURL - On parse le DOM du contenu récupéré via PHP, xPath - Je récupère les node qui m'intéressent (title, meta description, link rel image Mon site utilise un encodage ISO-8859-1 et je n'arrive pas à trouver le bon comportement pour faire une prévisualisation correcte des données récupérées. L'idée est d'afficher comme sur Facebook un petit bloc résumant la page distante. Mais selon le site cible, j'ai des problèmes liés aux accents. Selon le content-type distant (UTF-8, ISO-8859-1, parfois pas déclaré), le traitement des chaînes récupérées n'est en effet pas le même (tantôt utf8_decode, tantôt convertir les entités HTML...) J'aimerai savoir si via cURL, il est possible de récupérer le content-type distant ? J'ai tenté Code :
echo curl_getinfo($ch, CURLINFO_CONTENT_TYPE); J'ai bien tenté de localiser via xPath la balise content-type : Code :
/html/head/meta[@http-equiv='content-type']/@content Voici les options déclarées pour cURL : Code :
Je ne sais pas si je suis bien clair dans ma demande... N'hésitez pas à me demander des précisions :-) Merci |
||
|
|
00
|
Copyright © 2000-2012 - www.developpez.com