Bonjour,

Je souhaiterais a partir d"une page xhtml qui contient des liens vers tout un tas de package, écrire un script python qui me permette de construire une liste triée de la forme

NOM_PACKAGE_1 URL_PACKAGE_1.
NOM_PACKAGE_2 URL_PACKAGE_2

Par exemple mon xhtml ressemble a ca :

dload filename { url: 'http://downloads.sourceforge.net/project/mingw/GCC%20Version%204/Current%20Release_%20gcc-4.4.0/gcc-4.4.0-src.tar.bz2' }"
href="/projects/mingw/files/GCC%20Version%204/Current%20Release_%20gcc-4.4.0/gcc-4.4.0-src.tar.bz2/download"
title="/GCC Version 4/Current Release_ gcc-4.4.0/gcc-4.4.0-src.tar.bz2: released on 2009-06-23"
>gcc-4.4.0-src.tar.bz2</a>

</td>
<td class="platform">


</td>
<td>62.7 MB</td>
<td>2009-06-23</td>
<td>3,274</td>
<td>

<a href="http://sourceforge.net/project/shownotes.php?release_id=691876" class="icon-sm notes-sm" title="Release Notes">Release Notes</a>

</td>

</tr>

<tr id="node-775-2" class="child-of-node-753-1">

<td class="tree">
<a class="




ext_jar

dload filename { url: 'http://downloads.sourceforge.net/project/mingw/GCC%20Version%204/Current%20Release_%20gcc-4.4.0/ecj-20080701-src.jar' }"
href="/projects/mingw/files/GCC%20Version%204/Current%20Release_%20gcc-4.4.0/ecj-20080701-src.jar/download"
title="/GCC Version 4/Current Release_ gcc-4.4.0/ecj-20080701-src.jar: released on 2009-06-23"
>ecj-20080701-src.jar</a>

et je veux obtenir :

ecj-20080701-src.jar http://downloads.sourceforge.net/pro...080701-src.jar
gcc-4.4.0-src.tar.bz2 http://downloads.sourceforge.net/pro....0-src.tar.bz2


ca implique de détecter dload filename { url:'URL_PACKAGE' }"
et d'extraire URL_PACKAGE puis ensuite d'aller jusqu'au
>NOM_PACKAGE<.

Si vous savez faire ca faites moi signes...

L'idée est de pouvoir lister les packages disponibles au téléchargement sur le site http://sourceforge.net/projects/mingw/files/.

Rémunération possible par paypal ou rentacoder ...