Ok je reprends :lol:
Je dois me connecter à une page html.
Dans cette page se trouve plusieurs choses sous cette forme :
Etc ...Code:
1
2 <tr><td><a href='https://www.test.com/truc1.xml' target='_blank'>fichier1.xml</a><td>18 April 2019 10:00:00</td><td>1 KB</td></tr> <tr><td><a href='https://www.test.com/truc2.pdf' target='_blank'>truc2.pdf</a><td>19 April 2019 10:00:00</td><td>1 KB</td></tr>
Ce sont des fichiers uploadé que je dois récupérer chaque jour.
De mon côté, jusqu'à aujourd'hui, je récupérais mon contenu comme ceci :
1 boucle pour le xml (car il est traité à part après) :
1 autre boucle pour le reste :Code:grep -Po "href=.\Khttps://www.test.com.+?xml(?=.+$(LANG=C date +'%d %B %Y'))"`
Seulement j'ai remarqué que parfois, il arrivait que je trouve du contenu sous cette forme :Code:grep -Po "href=.\Khttps://www.test.com.+?(pdf|xlsx|pptx)(?=.+$(LANG=C date +'%d %B %Y'))"`
Et donc avec des espaces dans le lien !Code:<tr><td><a href='https://www.test.com/truc1 version 2.pdf' target='_blank'>truc1 version 2.pdf</a><td>19 April 2019 10:00:00</td><td>1 KB</td></tr>
Le problème c'est que en l'état je ne peux pas récupérer "truc1 version 2.pdf" car il va être récupéré comme ceci :
Concernant la date, c'était seulement pour l'exemple, je n'ai pas de problème à ce niveau-là. Mon script est lancé tous les jours et donc je récupère chaque jour ce qui a été uploadé.Code:
1
2
3truc1 version 2.pdf
J'espère vous avoir apporté un peu plus de précisions :D
Climux