Hello,

tout d'abord, j'espère que le forum est adéquat pour ma petite question à propos de l'agrégation de flux RSS.

Je m'intéresse en effet depuis peu à la techno RSS et j'ai jeté un oeil au format du contenu XML d'un flux RSS. Rien de bien extraordinaire à l'intérieur: principalement une collection d'items avec un titre, un ID, un résumé (description) et un lien vers l'article original. Exemple avec un article du site PCINpact:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
<item>
 <title>NVIDIA évoque CUDA-x86, son compilateur pour CPU</title>
 <description>Alors que la GPU Technology Conference (GTC) vient d'ouvrir ses portes à San Jose, Jen-Hsun Huang est actuellement en pleine Keynote. Et parmi de nombreuses annonces, plus ou moins concrète il a évoqué un projet qui pourrait INtéresser plus d'un ...</description>
 <link>http://www.pcinpact.com/actu/news/59485-cudax86-pgi-opencl-gtc-nvidia.htm</link>
 <guid>http://www.pcinpact.com/actu/news/59485-cudax86-pgi-opencl-gtc-nvidia.htm</guid>                    
 <author>david_l@pcinpact.com (David Legrand)</author>
 <category>Carte graphique</category>
 <pubDate>Tue, 21 Sep 2010 19:52:21 +0200</pubDate>
</item>
On le voit bien ici, seulement les premiers mots de l'article sont inclus dans le flux RSS ; à priori, pour récupérer l'article complet il semble obligatoire de se rendre avec un navigateur sur la page du site.
Pourtant, j'utilise également sur mon téléphone Android l'aggrégateur RSS nommé "NewsRoom" de la société Trileet (payant). Or ce dernier, pour le même flux RSS:

- m'affiche la totalité du contenu de l'article, pas seulement le résumé de départ.

- est également capable de le faire sans pour autant m'afficher 'bêtement' l'ensemble de la page de l'article: le contenu est bien affiché après avoir été épuré de tout ce qui ne se rapporte pas directement à l'article (header, menus, footer, commentaires, etc...

Concrètement:

- le flux RSS contient uniquement le contenu suivant:
Alors que la GPU Technology Conference (GTC) vient d'ouvrir ses portes à San Jose, Jen-Hsun Huang est actuellement en pleine Keynote. Et parmi de nombreuses annonces, plus ou moins concrète il a évoqué un projet qui pourrait INtéresser plus d'un ...
- newsRoom m'affiche ceci (le reste de l'article est bien dispo, il suffit de scroller la page):



- la page pointée par le flux RSS ressemble à ça:




D'où ma question: comment font-ils pour récupérer juste le contenu en éliminant tout le reste. Y a-t-il une astuce quelque part (intervention humaine pour définir quoi récupérer, ce dont je doute) ou est-ce quelque chose de faisable avec RSS (User Agent spécifique pour la requête GET, ...) ?


Merci d'avance