Précédent   Forum des professionnels en informatique > Systèmes > Linux > Applications > Shell
Shell Vos questions sur l'utilisation des commandes shell
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 28/12/2011, 10h43   #1
Invité de passage
 
Inscription : décembre 2011
Messages : 9
Détails du profil
Informations forums :
Inscription : décembre 2011
Messages : 9
Points : 0
Points : 0
Par défaut Séparer des mots de balises HTML

Bonjour,
dans le but de créer un "dictionnaire" du web en shell, j'ai du télécharger certaines pages internet grâce à la commande wget. J'aimerai connaitre le moyen de dissocier les mots contenus dans le fichier HTML obtenu des balises HTML. En effet dans le cas où on aurait quelque chose comme :

tralala<balise>blabla</balise><balise>truc</balise>muche

Ne pouvant prédire la longueur d'une telle chaîne, il me semble difficile de réaliser ce que je veux avec la commande sed. J'ai posé la question, et l'on m'a orienté vers la commande awk, j'ai lu le man de cette dernière, hors je ne vois toujours pas comment faire. Pourriez vous me donner un exemple d'utilisation afin que je puisse comprendre la commande et l'utiliser au mieux.
kandro est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/12/2011, 11h14   #2
Expert Confirmé Sénior
 
Avatar de frp31
 
Homme francois
Ingénieur systèmes et réseaux
Inscription : juillet 2006
Messages : 3 538
Détails du profil
Informations personnelles :
Nom : Homme francois
Âge : 35
Localisation : France, Haute Garonne (Midi Pyrénées)

Informations professionnelles :
Activité : Ingénieur systèmes et réseaux
Secteur : Aéronautique - Marine - Espace - Armement

Informations forums :
Inscription : juillet 2006
Messages : 3 538
Points : 7 754
Points : 7 754
tu peux tjrs faire un traitement global vers un fichier de résultat :
Code :
 sed 's/<.*>\(.*\)<\/.*>/ \1 /' truc.html > truc.txt
exemple :

Code :
1
2
3
[fpu@lnx ~] echo "tralala<balise>blabla</balise><balise>truc</balise>muche" | sed 's/<.*>\(.*\)<\/.*>/ \1 /'
tralala truc muche
[fpu@lxnx ~]
frp31 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/12/2011, 11h32   #3
Invité de passage
 
Inscription : décembre 2011
Messages : 9
Détails du profil
Informations forums :
Inscription : décembre 2011
Messages : 9
Points : 0
Points : 0
Merci de ta réponse, cependant il reste un problème, le texte d'entrée est :

tralala<balise>blabla</balise><balise>truc</balise>muche

Le texte de sortie est :

tralala truc muche

Il manque le blabla.
kandro est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/12/2011, 12h03   #4
Expert Confirmé
 
Inscription : janvier 2011
Messages : 970
Détails du profil
Informations personnelles :
Localisation : France, Haute Garonne (Midi Pyrénées)

Informations forums :
Inscription : janvier 2011
Messages : 970
Points : 2 871
Points : 2 871
Salut,

Code :
1
2
3
4
$ echo "tralala<balise>blabla</balise><balise>truc</balise>muche" | sed 's/<[^>]*>/ /g'
tralala blabla  truc muche
 
$
Sinon, en récupérant directement que le texte de ta page html avec w3m, ça ne le ferait pas ?

__________________
$ man woman
Il n'y a pas de page de manuel pour woman.
zipe31 est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 28/12/2011, 13h59   #5
Expert Confirmé Sénior
 
Avatar de frp31
 
Homme francois
Ingénieur systèmes et réseaux
Inscription : juillet 2006
Messages : 3 538
Détails du profil
Informations personnelles :
Nom : Homme francois
Âge : 35
Localisation : France, Haute Garonne (Midi Pyrénées)

Informations professionnelles :
Activité : Ingénieur systèmes et réseaux
Secteur : Aéronautique - Marine - Espace - Armement

Informations forums :
Inscription : juillet 2006
Messages : 3 538
Points : 7 754
Points : 7 754
bien vu je connaissais pas la fonction...
frp31 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/12/2011, 15h40   #6
Invité de passage
 
Inscription : décembre 2011
Messages : 9
Détails du profil
Informations forums :
Inscription : décembre 2011
Messages : 9
Points : 0
Points : 0
Merci, à vous deux pour vos réponses, je penses qu'avec ça j'aurai de quoi réussir mon projet.
kandro est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 02h08.


 
 
 
 
Partenaires

Hébergement Web