1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
| #!/bin/sh
# Script destiné à extraire du texte à partir d'un fichier en HTML
# Copyright (c) C. Deroulers 9 avril 1999
# Syntaxe : html2txt [fichier]
if echo "$*" | grep -E '(^| )(-h|--help)' > /dev/null ; then
echo "html2txt: Convertisseur sommaire de HTML en texte brut
(c) C. Deroulers 1999 - Syntaxe : html2txt <fichier HTML>"
exit 1
fi
sed -e 's/\é/é/g
s/\é/é/g
s/\É/É/g
s/\ê/ê/g
s/\Ê/Ê/g
s/\è/è/g
s/\È/È/g
s/\ë/ë/g
s/\Ë/Ë/g
s/\à/à/g
s/\À/À/g
s/\á/á/g
s/\Á/Á/g
s/\â/â/g
s/\Â/Â/g
s/\ä/ä/g
s/\Ä/Ä/g
s/\ï/ï/g
s/\Ï/Ï/g
s/\ô/ô/g
s/\Ô/Ô/g
s/\ö/ö/g
s/\Ö/Ö/g
s/\ù/ù/g
s/\Ù/Ù/g
s/\ú/ú/g
s/\Ú/Ú/g
s/\û/û/g
s/\Û/Û/g
s/\ü/ü/g
s/\Ü/Ü/g
s/\ç/ç/g
s/\&Cdedil;/Ç/g
s/\&/\\\&/g
s/<[^<>]*>//g' $* |