Bonjour,

Je souhaiterai manipuler le contenu de plusieurs pages web de façon automatisée.

Voici le lien d'un exemple :

http://www.livejournal.com/misc/expunged_list.bml

Comme vous le voyez, il y a des mots en colonne contenus dans des tableaux.

Le premier mot est donc : a000034857731

Je souhaiterai :

1. Récupérer le contenu de ces mots dans un fichier (soit jusqu'au mot "a1teraj") et qu'ils soient bien tous à la ligne les uns en dessous des autres, sans balises <li></li>, seulement les mots.
2. Appuyer sur "filter" (ce qui a pour effet de réactualiser la page avec de nouveaux mots), les mettre à la suite des premiers, et donc faire une boucle (sur la lettre "A" donc) jusqu'à ce que le contenu soit identique à un contenu déjà répertorié dans le fichier de récupération.
3. Passer à la lettre "B", appuyez sur "filter".
4. Répéter l'opération jusqu'au dernier mots issus du "filter" non répertorié dans le fichier de la lettre Z.

Avez vous une idée ?

Cordialement,

Jean.