Récupérer ou générer extrait de pages web distantes

**pebayart** · 03/02/2014, 17h57

Bonjour tout le monde

Voilà je prépare un petit projet perso (qui sera partagé quand il sera, au moins, beau a regarder ^^)

Je souhaiterais savoir comment récupérer un extrait de page web (page aléatoire entré par l'usager), manière aux publications sur facebook : on rentre une url et le script sort un texte d'une longueur donnée (disons par exemple 300 caractères) correspondant je pense au premier paragraphe du corps de la page (mais ce n'est pas forcément un paragraphe ... ce peux très bien être dans une cellule de tableau, selon comment la page a était codé

;

Sur facebook, tu rentre une url, il te sort un extrait de la page (avec une image) et hop tu publie; l'image ce serait cool aussi, mais je vais y aller petit a petit hein!

En faite je suis entrain de me faire un gestionnaire de marques-pages/favoris, et je voudrais que cela affiche un résumé des pages indexés

http://www.developpez.net/forums/ima...lies/ccool.gif

J'ai essayé avec ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
$contenuepage = file_get_contents($adresse);
preg_match_all("#<body (.*?)>(.*?)</body>#is", $contenuepage,$page);
$extrait = strip_tags($page[0][0]);
$extrait = trim(substr($extrait, 0, 300));

mais cela me sort toutes les balises et les javascripts ...
étant donné que la structure des pages m'est inconnu, que je ne sais pas ce qu'il y a autour des balises que je voudrais récupérer, sans être même sur si ce que je cherche est contenu dans un <p>, dans un <div>, ...

Il n'existerait pas de manière plus simple ?

comment je dois faire ??

Merci de votre attention

Pierre-Emm

**alejandro** · 08/02/2014, 21h50

Bonsoir,

Oui il y a plus simple, essaye de parser ta page à l'aide de simpleXML.
Tu pourras rechercher les tags qui t'intéressent comme par exemple les paragraphes ou les images.
Tu trouveras la doc officielle sur le site de php.net :

http://php.net/manual/fr/book.simplexml.php

En espérant que cela t'aide.

Récupérer ou générer extrait de pages web distantes

Langage PHP

Discussions similaires

Partager

Partager