Script Bash > Decrypter une page html

Ok je reprends :lol:

Je dois me connecter à une page html.
Dans cette page se trouve plusieurs choses sous cette forme :
Code:

1 2 <tr><td><a href='https://www.test.com/truc1.xml' target='_blank'>fichier1.xml</a><td>18 April 2019 10:00:00</td><td>1 KB</td></tr> <tr><td><a href='https://www.test.com/truc2.pdf' target='_blank'>truc2.pdf</a><td>19 April 2019 10:00:00</td><td>1 KB</td></tr>
Etc ...
Ce sont des fichiers uploadé que je dois récupérer chaque jour.

De mon côté, jusqu'à aujourd'hui, je récupérais mon contenu comme ceci :
1 boucle pour le xml (car il est traité à part après) :

Code:

grep -Po "href=.\Khttps://www.test.com.+?xml(?=.+$(LANG=C date +'%d %B %Y'))"`

1 autre boucle pour le reste :

Code:

grep -Po "href=.\Khttps://www.test.com.+?(pdf|xlsx|pptx)(?=.+$(LANG=C date +'%d %B %Y'))"`

Seulement j'ai remarqué que parfois, il arrivait que je trouve du contenu sous cette forme :

Code:

<tr><td><a href='https://www.test.com/truc1 version 2.pdf' target='_blank'>truc1 version 2.pdf</a><td>19 April 2019 10:00:00</td><td>1 KB</td></tr>

Et donc avec des espaces dans le lien !

Le problème c'est que en l'état je ne peux pas récupérer "truc1 version 2.pdf" car il va être récupéré comme ceci :
Code:

1 2 3 truc1 version 2.pdf
Concernant la date, c'était seulement pour l'exemple, je n'ai pas de problème à ce niveau-là. Mon script est lancé tous les jours et donc je récupère chaque jour ce qui a été uploadé.

J'espère vous avoir apporté un peu plus de précisions :D

Climux