[LXML] Comparer date d'une balise avec une date tampon

**Climux** · 09/10/2019, 17h33

Bonjour à tous,

Pour contextualiser, j'ai un script qui se lance chaque jour afin de parcourir une page xml (qui est mis à jour de manière aléatoire) et de récupérer du contenu.

Voici un exemple du code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
from lxml import etree 
import datetime
 
date = datetime.datetime.today().strftime('%d/%m/%Y')
tree = etree.parse(".../fichier.xml")
 
for date in tree.xpath("/TRUCS/TRUC1[DATE_MAJ_TRUC='%s']/URL_TRUC" % date):
    print(date.text)

Aujourd'hui ce script me permet de récupérer le contenu du jour (si il a été mis à jour).

Cependant je souhaiterais l'optimiser en faisant en sorte de garder en mémoire la dernière date à laquelle il a récupéré du contenu, et de comparer cette date aux balises "DATE_MAJ_TRUC" de mon xml et de ne récupérer le contenu uniquement que si la date présente est supérieure à la date enregistrée au préalable.
Et évidement, si je récupère du contenu, je souhaiterais écraser la précédente date par la nouvelle.

Une idée ?

**VinsS** · 09/10/2019, 20h32

Salut,

Et bien tu enregistres cette date dans un fichier, non ?

**Climux** · 10/10/2019, 11h19

Salut VinsS,

Ce qui m’intéresse surtout c'est de savoir comme faire en sorte de récupérer tout ce qui est après la date enregistrée.
Par exemple, je ne lancerais plus mon script chaque jour, mais chaque semaine.
Je voudrais pouvoir récupérer tout ce qui est supérieur à la date du précédent téléchargement.

Avec mon bout de code je passe en revue le fichier chaque jour, ce qui n'est pas l'attendu.

**tsuji** · 18/10/2019, 12h42

[1]

Cependant je souhaiterais l'optimiser en faisant en sorte de garder en mémoire la dernière date à laquelle il a récupéré du contenu, et de comparer cette date aux balises "DATE_MAJ_TRUC" de mon xml et de ne récupérer le contenu uniquement que si la date présente est supérieure à la date enregistrée au préalable.

Le xml est par nature extensible (x). Si vous avez le droit de lecture et d'écriture sur le document xml en question, vous pouvez enregistrer l'info sur la dernière visite dans le xml lui-même.

Par exemple, on peut insérer un attribut dit @dv (dv pour dernière visite) dans la racine TRUCS après chaque fois qu'on a récupéré les données en faisant comme ça :

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
root=tree.getroot()
root.set('dv', date)

Et puis le document ainsi modifié est sauvegardé en sortant.

Et puis, chaque fois on charge le document, on lit d'abord le @dv et on récupère les données à la date supérieur à @dv.

[2] Jusqu'une petite note non moins importante. Le format %d/%m/%Y avec duquel les infos des dates sont stockés aux DATE_MAJ_TRUC coûterait très cher, énormément cher. Il vaut mieux changer le format en préférant le format d'iso %Y-%m-%d à la source avant le xml est mis à jour. Quand on veut récupérer les données, il faut faire une opération de comparaison entre les dates - c'est incontournable - on va sentir la peine et ça coûte. Mais, c'est comme vous voulez !

[LXML] Comparer date d'une balise avec une date tampon

Python

Discussions similaires

Partager

Partager