Hello,
tout d'abord, j'espère que le forum est adéquat pour ma petite question à propos de l'agrégation de flux RSS.
Je m'intéresse en effet depuis peu à la techno RSS et j'ai jeté un oeil au format du contenu XML d'un flux RSS. Rien de bien extraordinaire à l'intérieur: principalement une collection d'items avec un titre, un ID, un résumé (description) et un lien vers l'article original. Exemple avec un article du site PCINpact:
On le voit bien ici, seulement les premiers mots de l'article sont inclus dans le flux RSS ; à priori, pour récupérer l'article complet il semble obligatoire de se rendre avec un navigateur sur la page du site.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10 <item> <title>NVIDIA évoque CUDA-x86, son compilateur pour CPU</title> <description>Alors que la GPU Technology Conference (GTC) vient d'ouvrir ses portes à San Jose, Jen-Hsun Huang est actuellement en pleine Keynote. Et parmi de nombreuses annonces, plus ou moins concrète il a évoqué un projet qui pourrait INtéresser plus d'un ...</description> <link>http://www.pcinpact.com/actu/news/59485-cudax86-pgi-opencl-gtc-nvidia.htm</link> <guid>http://www.pcinpact.com/actu/news/59485-cudax86-pgi-opencl-gtc-nvidia.htm</guid> <author>david_l@pcinpact.com (David Legrand)</author> <category>Carte graphique</category> <pubDate>Tue, 21 Sep 2010 19:52:21 +0200</pubDate> </item>
Pourtant, j'utilise également sur mon téléphone Android l'aggrégateur RSS nommé "NewsRoom" de la société Trileet (payant). Or ce dernier, pour le même flux RSS:
- m'affiche la totalité du contenu de l'article, pas seulement le résumé de départ.
- est également capable de le faire sans pour autant m'afficher 'bêtement' l'ensemble de la page de l'article: le contenu est bien affiché après avoir été épuré de tout ce qui ne se rapporte pas directement à l'article (header, menus, footer, commentaires, etc...
Concrètement:
- le flux RSS contient uniquement le contenu suivant:
- newsRoom m'affiche ceci (le reste de l'article est bien dispo, il suffit de scroller la page):Alors que la GPU Technology Conference (GTC) vient d'ouvrir ses portes à San Jose, Jen-Hsun Huang est actuellement en pleine Keynote. Et parmi de nombreuses annonces, plus ou moins concrète il a évoqué un projet qui pourrait INtéresser plus d'un ...
- la page pointée par le flux RSS ressemble à ça:
D'où ma question: comment font-ils pour récupérer juste le contenu en éliminant tout le reste. Y a-t-il une astuce quelque part (intervention humaine pour définir quoi récupérer, ce dont je doute) ou est-ce quelque chose de faisable avec RSS (User Agent spécifique pour la requête GET, ...) ?
Merci d'avance
Partager