Bonsoir à tous,
Je cherche à extraire plusieurs informations d'un site (dans mon exemple Allociné).
Après avoir récupéré le code de la page en html dans un fichier .txt je souhaite en extraire plusieurs informations : titres, notes synopsis et images pour à terme en refaire un fichier html (sans css derrière)
J'ai cependant 2 problèmes majeurs :
- comment extraire les images correspondantes aux films ? Pour ça je n'ai pas la moindre idée en dépit de mes recherches sur internet.
- pour le moment j'ai réussi à extraire les titres et les synopsis des films, mais dans deux fichiers différents que je dois ensuite concaténer en un seul et je trouve ça lourd. Existe-t-il un meilleur moyen de faire cela sans passer par des fichier temporaire ?
Merci d'avance pour votre aide et ci-dessous mon code pour les titres et synopsis :
Le fichier titres ne contient que les titres l'un en dessous de l'autre et pareil pour le fichier synopsis.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 egrep meta-title-link Alloci*.txt | grep "<a" | cut -d\> -f2 | cut -d\< -f1 | sed -re "s/'/\'/g" > SUPER_TITRES.txt sed -n '/<div class="content-txt ">/,/<div class="rating-holder">/p' Alloci*.txt | sed '/</d' | sed 's/^[ \t]*//;s/[ \t]*$//' | sed '/^$/d' > GENIAL_SYNOPSIS.txt nb=$(echo $(echo `wc -l SUPER_TITRES.txt`) | cut -d' ' -f1) for (( i=1; i<=$nb; i++)); do ligne=$i titre=`sed -n ${ligne}p SUPER_TITRES.txt` desc=`sed -n ${ligne}p GENIAL_SYNOPSIS.txt` echo "$titre" >> NUL.html echo " " >> NUL.html echo "$desc" >> NUL.html echo " " >> NUL.html done
Partager