[bash]Traitement d'un fichier txt/html

**Chadoxis** · 22/12/2018, 22h51

Bonsoir à tous,

Je cherche à extraire plusieurs informations d'un site (dans mon exemple Allociné).

Après avoir récupéré le code de la page en html dans un fichier .txt je souhaite en extraire plusieurs informations : titres, notes synopsis et images pour à terme en refaire un fichier html (sans css derrière)
J'ai cependant 2 problèmes majeurs :
- comment extraire les images correspondantes aux films ? Pour ça je n'ai pas la moindre idée en dépit de mes recherches sur internet.
- pour le moment j'ai réussi à extraire les titres et les synopsis des films, mais dans deux fichiers différents que je dois ensuite concaténer en un seul et je trouve ça lourd. Existe-t-il un meilleur moyen de faire cela sans passer par des fichier temporaire ?

Merci d'avance pour votre aide et ci-dessous mon code pour les titres et synopsis :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
egrep meta-title-link Alloci*.txt | grep "<a" | cut -d\> -f2 | cut -d\< -f1 | sed -re "s/'/\'/g" > SUPER_TITRES.txt
sed -n '/<div class="content-txt ">/,/<div class="rating-holder">/p' Alloci*.txt | sed '/</d' | sed 's/^[ \t]*//;s/[ \t]*$//' | sed '/^$/d' > GENIAL_SYNOPSIS.txt
 
nb=$(echo $(echo `wc -l SUPER_TITRES.txt`) | cut -d' ' -f1)
for (( i=1; i<=$nb; i++));
do
	ligne=$i
	titre=`sed -n ${ligne}p SUPER_TITRES.txt`
	desc=`sed -n ${ligne}p GENIAL_SYNOPSIS.txt`
	echo "$titre" >> NUL.html
	echo " " >> NUL.html
	echo "$desc" >> NUL.html
	echo " " >> NUL.html
done

Le fichier titres ne contient que les titres l'un en dessous de l'autre et pareil pour le fichier synopsis.

[bash]Traitement d'un fichier txt/html

Shell et commandes GNU

Mode arborescent

Discussions similaires

Partager

Partager