Je cherche a extraire noms de fichier image + titres dans un gros fichier html.
( Ok ça serait faisable en autre chose que sed, mais j'y étais presque et ça m'interesse de comprendre anyway :-) )
voici l'expression à laquelle je suis parvenu, sur une courte chaine d'exemple, mais ça ne marche pas:
visiblement le probleme se situe au premier '>':
Code : Sélectionner tout - Visualiser dans une fenêtre à part echo '(path/yac5cxfjm1.png)"></span><xxx><yyy>le titre</span>' | sed 's#/\([0-9a-z]*\).png)"></span>\([!>]*\)>\([!>]*\)>\([!<]*\)#@ FILE:\1 TITLE:\4/a%\n#g'
s#/\([0-9a-z]*\).png)"></span>\([!>]*\) matche mon exemple,
mais pas
une idee du soucis ?
Code : Sélectionner tout - Visualiser dans une fenêtre à part s#/\([0-9a-z]*\).png)"></span>\([!>]*\)>
(NB: c'est pas une question d'echappement de ! et > , j'ai déjà testé)
NB: j'en suis venu a matcher explicitement chaque <...> entre mes 2 champs visés (nom et titre), parceque \(.*\) essayé auparavant semble faire un match maximaliste et non minimaliste.
merci !
Partager