|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Invité de passage
![]() Inscription : décembre 2011 Messages : 9 ![]() |
Bonjour,
dans le but de créer un "dictionnaire" du web en shell, j'ai du télécharger certaines pages internet grâce à la commande wget. J'aimerai connaitre le moyen de dissocier les mots contenus dans le fichier HTML obtenu des balises HTML. En effet dans le cas où on aurait quelque chose comme : tralala<balise>blabla</balise><balise>truc</balise>muche Ne pouvant prédire la longueur d'une telle chaîne, il me semble difficile de réaliser ce que je veux avec la commande sed. J'ai posé la question, et l'on m'a orienté vers la commande awk, j'ai lu le man de cette dernière, hors je ne vois toujours pas comment faire. Pourriez vous me donner un exemple d'utilisation afin que je puisse comprendre la commande et l'utiliser au mieux. |
|
|
00
|
|
|
#2 | ||
|
Expert Confirmé Sénior
![]() francois Ingénieur systèmes et réseaux Inscription : juillet 2006 Messages : 3 538 ![]() |
tu peux tjrs faire un traitement global vers un fichier de résultat :
Code :
sed 's/<.*>\(.*\)<\/.*>/ \1 /' truc.html > truc.txt Code :
|
||
|
|
00
|
|
|
#3 |
|
Invité de passage
![]() Inscription : décembre 2011 Messages : 9 ![]() |
Merci de ta réponse, cependant il reste un problème, le texte d'entrée est :
tralala<balise>blabla</balise><balise>truc</balise>muche Le texte de sortie est : tralala truc muche Il manque le blabla. |
|
|
00
|
|
|
#4 | ||
|
Expert Confirmé
![]() Inscription : janvier 2011 Messages : 970 ![]() |
Salut,
Code :
__________________
$ man woman Il n'y a pas de page de manuel pour woman. |
||
|
|
10
|
|
|
#5 |
|
Expert Confirmé Sénior
![]() francois Ingénieur systèmes et réseaux Inscription : juillet 2006 Messages : 3 538 ![]() |
bien vu je connaissais pas la fonction...
|
|
|
00
|
|
|
#6 |
|
Invité de passage
![]() Inscription : décembre 2011 Messages : 9 ![]() |
Merci, à vous deux pour vos réponses, je penses qu'avec ça j'aurai de quoi réussir mon projet.
|
|
|
00
|
Copyright © 2000-2012 - www.developpez.com