Je cherche a extraire noms de fichier image + titres dans un gros fichier html.
C'est du sed en shellscript, mais bon, une regexp est une regexp :-)
voici l'expression à laquelle je suis parvenu, sur une courte chaine d'exemple, mais ça ne marche pas:
echo '(path/yac5cxfjm1.png)"></span><xxx><yyy>le titre</span>' | sed 's#/\([0-9a-z]*\).png)"></span>\([!>]*\)>\([!>]*\)>\([!<]*\)#@ FILE:\1 TITLE:\4/a%\n#g'
visiblement le probleme se situe au premier '>':
s#/\([0-9a-z]*\).png)"></span>\([!>]*\) matche mon exemple, mais pas
s#/\([0-9a-z]*\).png)"></span>\([!>]*\)>
une idee du soucis ?
(NB: c'est pas une question d'echappement de ! et > , j'ai déjà testé)
NB: j'en suis venu a matcher explicitement chaque <...> entre mes 2 champs visés (nom et titre), parceque \(.*\) essayé auparavant semble faire un match maximaliste et non minimaliste.
merci !
Partager