Comment parser un fichier XML avec lien Http dans Balise route

Version imprimable

Bonjour,
Apres 2 jours à tourner en rond , je me suis décidé à lancer ma première demande d'aide en ligne.

Je bute sur le parsing de fichiers xml qui contiennent une balise root avec un lien http

Extrait ci dessous:
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 <?xml version="1.0" encoding="UTF-8"?> <measCollecFile xmlns="http://www.3gpp.org/ftp/specs/archive/32_series/32.435#measCollec"> <fileHeader vendorName="N........" fileFormatVersion="32.435 V10.0"> <fileSender elementType="MTW"/> <measCollec beginTime="2022-11-27T21:45:00+01:00"/> </fileHeader> <measData> <managedElement/> <measInfo measInfoId="MTW"> <granPeriod endTime="2022-11-27T22:00:00+01:00" duration="PT900S"/> <repPeriod duration="PT900S"/> <measTypes>M1 M2 M3 M4 M5</measTypes> <measValue measObjLdn="N-147/MT-99/MTW-1"> <measResults>2737 2833 2703 2247 0</measResults> </measValue> </measInfo>
Si j'enlève manuellement la chaine : xmlns="http://www.3gpp.org/ftp/specs/archive/32_series/32.435#measCollec" dans la première balise, j'arrive très facilement à parser mon fichier et obtenir le résultat escompté. A savoir, obtenir une dataframe Pandas répertoriant l'ensemble des mesures.
Code:

1 2 measObjLdn measResult granPeriod time 0 N-147/MT-99/MTW-1 2798 2846 2770 1497 0 PT900S 2022-11-27T22:45:00+01:00
mon code est construit de cette façon
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 from lxml import etree import xml.etree.ElementTree as ET import pandas patch_sortie= 'C:\\Users\\Documents\\Python Scripts\\recherche file\\sortie\\' tree = ET.parse(patch_sortie+'1.xml') tree1 = etree.parse(patch_sortie+'1.xml') root = tree.getroot() liste_measObjLdn = [] liste_measResults = [] liste_repPeriod = [] liste_time = [] for dn in tree1.xpath("/measCollecFile/measData/measInfo/measValue"): liste_measObjLdn.append(dn.get("measObjLdn")) for c in root.iter('measResults'): liste_measResults.append(c.text) for pts in tree1.xpath("/measCollecFile/measData/measInfo/granPeriod"): liste_repPeriod.append(pts.get("duration")) for time in tree1.xpath("/measCollecFile/measData/measInfo/granPeriod"): liste_time.append(time.get("endTime")) result = pandas.DataFrame(columns=['measObjLdn','measResult','granPeriod']) df=result.assign(measObjLdn=liste_measObjLdn,measResult=liste_measResults,granPeriod=liste_repPeriod,time=liste_time) print (df)
Malheureusement, il ne fonctionne pas si j'utilise le fichier originel avec la balise root complète. Avez vous une idée pour que je puisse adapter mon code afin de prendre en compte cette balise ?
Si je n'avais qu'un fichier qu'à parser , cela ne me bloquerait dans la suite de l'exercice, mais j'en ai plus d'une soixantaine à traiter et chaque fichier comporte au moins 200 équipements que je dois ajouter dans ma dataframe

merci pour votre aide

29/11/2022, 15h32
wiztricks

Citation:

Envoyé par 30_naire

Malheureusement, il ne fonctionne pas si j'utilise le fichier originel avec la balise root complète. Avez vous une idée pour que je puisse adapter mon code afin de prendre en compte cette balise ?

Déjà expliquer/commenter ce "il ne fonctionne pas si... "
Puis comme vous avez probablement cherché sur Internet des solutions à des problèmes similaires, raconter ce que vous avez essayé n'est pas du luxe.

- W

Bonjour

Citation:

Envoyé par 30_naire

Apres 2 jours à tourner en rond , je me suis décidé à lancer ma première demande d'aide en ligne.

Tu aurais cherché dans la doc au lieu de tourner en rond, tu aurais trouvé en 2mn...

Citation:

Envoyé par 30_naire

Je bute sur le parsing de fichiers xml qui contiennent une balise root avec un lien http

Non, tu butes sur le parsing des fichiers xml qui contiennent des balises avec namespaces (l'attribut "xmlns" = xml namespace" qui peut être multiple)

Citation:

Envoyé par 30_naire

Avez vous une idée pour que je puisse adapter mon code afin de prendre en compte cette balise ?

Dans la fonction xpath tu rajoutes le paramètre "namespaces=". Mais c'est assez subtil: il faut donne une clé au namespace attendu, puis tu utilises cette clé dans ta recherche

Exemple: Voici le début de mon xml (repris sur le tien mais avec un namespace plus simple pour l'exemple)
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 <?xml version="1.0" encoding="UTF-8"?> <measCollecFile xmlns="toto"> <fileHeader vendorName="N........" fileFormatVersion="32.435 V10.0"> <fileSender elementType="MTW"/> <measCollec beginTime="2022-11-27T21:45:00+01:00"/> </fileHeader> <measData> <managedElement/> <measInfo measInfoId="MTW"> <granPeriod endTime="2022-11-27T22:00:00+01:00" duration="PT900S"/> <repPeriod duration="PT900S"/> <measTypes>M1 M2 M3 M4 M5</measTypes> <measValue measObjLdn="N-147/MT-99/MTW-1"> <measResults>2737 2833 2703 2247 0</measResults> </measValue> </measInfo> </measData> </measCollecFile>
Je cherche le xpath de "measCollecFile" avec le namespace "toto" que j'appellerai (arbitrairement) "p"
Code:

1 2 3 4 5 from lxml import etree tree=etree.parse("x.xml") for dn in tree.xpath("/p:measCollecFile", namespaces={"p" : "toto"}): print(dn)
Donc on met la clef cherchée (ici "p") en début de string, puis on passe un dictionnaire avec la clef et le namespace qu'elle est censée représenter.
Cela permet de distinguer les namespaces cherchés.

30/11/2022, 11h24
30_naire
Merci Sve@r pour ta réponse constructive.
Tu m'as conforté sur la piste (que j'avais déjà emprunté) avec les namespaces.

Ensuite trouver la Doc est une chose, la mettre en place en est une autre.
Apres divers essais, j'ai enfin compris qu'il fallait mettre le namespaces dans chaque répertoire de l'arborescence

Avant:
Code:

1 2 3 for dn in tree1.xpath("/measCollecFile/measData/measInfo/measValue"): liste_measObjLdn.append(dn.get("measObjLdn"))
Apres:
Code:

1 2 3 for dn in tree1.xpath("/p:measCollecFile/p:measData/p:measInfo/p:measValue", namespaces={"p" : "toto"}): liste_measObjLdn.append(dn.get("measObjLdn"))