Re-Bonjour à tous,
Je me permets de déterrer cet ancien sujet pour une petite question.
Aujourd'hui j'utilise cette solution pour récupérer mes fichiers :
grep -Po "href=.\Khttps://www.test.com.+?(pdf|xlsx|pptx)(?=.+$(LANG=C date +'%d %B %Y'))"`
Et cela fonctionne, sauf pour un cas
En effet, si mon lien comporte des espaces, impossible de récupérer mon fichier, exemple :
1 2
| <tr><td><a href='https://test.com/truc1.xml' target='_blank'>fichier1.xml</a><td>18 April 2019 10:00:00</td><td>1 KB</td></tr>
<tr><td><a href='https://test.com/truc1 version 2.pdf' target='_blank'>truc1 version 2.pdf</a><td>19 April 2019 10:00:00</td><td>1 KB</td></tr> |
Dans ce cas là, si ma page html est de ce type, mon script récupérera le fichier "truc1.xml" mais pas le fichier "truc1 version 2.pdf" ...
Une idée pour me débloquer ?
Climux
Partager