Comment parser un fichier XML avec lien Http dans Balise route

**30_naire** · 29/11/2022, 15h42

Bonjour,
Apres 2 jours à tourner en rond , je me suis décidé à lancer ma première demande d'aide en ligne.

Je bute sur le parsing de fichiers xml qui contiennent une balise root avec un lien http

Extrait ci dessous:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
<?xml version="1.0" encoding="UTF-8"?>
<measCollecFile xmlns="http://www.3gpp.org/ftp/specs/archive/32_series/32.435#measCollec">
    <fileHeader vendorName="N........" fileFormatVersion="32.435 V10.0">
        <fileSender elementType="MTW"/>
        <measCollec beginTime="2022-11-27T21:45:00+01:00"/>
    </fileHeader>
    <measData>
        <managedElement/>
        <measInfo measInfoId="MTW">
            <granPeriod endTime="2022-11-27T22:00:00+01:00" duration="PT900S"/>
            <repPeriod duration="PT900S"/>
            <measTypes>M1 M2 M3 M4 M5</measTypes>
            <measValue measObjLdn="N-147/MT-99/MTW-1">
                <measResults>2737 2833 2703 2247 0</measResults>
            </measValue>
        </measInfo>

Si j'enlève manuellement la chaine : xmlns="http://www.3gpp.org/ftp/specs/archive/32_series/32.435#measCollec" dans la première balise, j'arrive très facilement à parser mon fichier et obtenir le résultat escompté. A savoir, obtenir une dataframe Pandas répertoriant l'ensemble des mesures.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
	measObjLdn	measResult	granPeriod	time
0	N-147/MT-99/MTW-1	2798 2846 2770 1497 0	PT900S	2022-11-27T22:45:00+01:00

mon code est construit de cette façon

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
 
from lxml import etree
import xml.etree.ElementTree as ET
import pandas
 
patch_sortie= 'C:\\Users\\Documents\\Python Scripts\\recherche file\\sortie\\'
tree = ET.parse(patch_sortie+'1.xml')
tree1 = etree.parse(patch_sortie+'1.xml')
root = tree.getroot()
 
liste_measObjLdn = []
liste_measResults = []
liste_repPeriod = []
liste_time = []
 
for dn in tree1.xpath("/measCollecFile/measData/measInfo/measValue"):
    liste_measObjLdn.append(dn.get("measObjLdn"))
for c in root.iter('measResults'):
    liste_measResults.append(c.text)
for pts in tree1.xpath("/measCollecFile/measData/measInfo/granPeriod"):
    liste_repPeriod.append(pts.get("duration"))
for time in tree1.xpath("/measCollecFile/measData/measInfo/granPeriod"):
    liste_time.append(time.get("endTime"))
 
result = pandas.DataFrame(columns=['measObjLdn','measResult','granPeriod'])
df=result.assign(measObjLdn=liste_measObjLdn,measResult=liste_measResults,granPeriod=liste_repPeriod,time=liste_time)
print (df)

Malheureusement, il ne fonctionne pas si j'utilise le fichier originel avec la balise root complète. Avez vous une idée pour que je puisse adapter mon code afin de prendre en compte cette balise ?
Si je n'avais qu'un fichier qu'à parser , cela ne me bloquerait dans la suite de l'exercice, mais j'en ai plus d'une soixantaine à traiter et chaque fichier comporte au moins 200 équipements que je dois ajouter dans ma dataframe

merci pour votre aide

**wiztricks** · 29/11/2022, 16h32

Envoyé par 30_naire

Malheureusement, il ne fonctionne pas si j'utilise le fichier originel avec la balise root complète. Avez vous une idée pour que je puisse adapter mon code afin de prendre en compte cette balise ?

Déjà expliquer/commenter ce "il ne fonctionne pas si... "
Puis comme vous avez probablement cherché sur Internet des solutions à des problèmes similaires, raconter ce que vous avez essayé n'est pas du luxe.

- W

**Sve@r** · 29/11/2022, 16h48

Bonjour

Envoyé par 30_naire

Apres 2 jours à tourner en rond , je me suis décidé à lancer ma première demande d'aide en ligne.

Tu aurais cherché dans la doc au lieu de tourner en rond, tu aurais trouvé en 2mn...

Envoyé par 30_naire

Je bute sur le parsing de fichiers xml qui contiennent une balise root avec un lien http

Non, tu butes sur le parsing des fichiers xml qui contiennent des balises avec namespaces (l'attribut "xmlns" = xml namespace" qui peut être multiple)

Envoyé par 30_naire

Avez vous une idée pour que je puisse adapter mon code afin de prendre en compte cette balise ?

Dans la fonction xpath tu rajoutes le paramètre "namespaces=". Mais c'est assez subtil: il faut donne une clé au namespace attendu, puis tu utilises cette clé dans ta recherche

Exemple: Voici le début de mon xml (repris sur le tien mais avec un namespace plus simple pour l'exemple)

Code xml :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<?xml version="1.0" encoding="UTF-8"?>
<measCollecFile xmlns="toto">
    <fileHeader vendorName="N........" fileFormatVersion="32.435 V10.0">
        <fileSender elementType="MTW"/>
        <measCollec beginTime="2022-11-27T21:45:00+01:00"/>
    </fileHeader>
    <measData>
        <managedElement/>
        <measInfo measInfoId="MTW">
            <granPeriod endTime="2022-11-27T22:00:00+01:00" duration="PT900S"/>
            <repPeriod duration="PT900S"/>
            <measTypes>M1 M2 M3 M4 M5</measTypes>
            <measValue measObjLdn="N-147/MT-99/MTW-1">
                <measResults>2737 2833 2703 2247 0</measResults>
            </measValue>
        </measInfo>
    </measData>
</measCollecFile>

Je cherche le xpath de "measCollecFile" avec le namespace "toto" que j'appellerai (arbitrairement) "p"

Code python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
from lxml import etree
 
tree=etree.parse("x.xml")
for dn in tree.xpath("/p:measCollecFile", namespaces={"p" : "toto"}):
	print(dn)

Donc on met la clef cherchée (ici "p") en début de string, puis on passe un dictionnaire avec la clef et le namespace qu'elle est censée représenter.
Cela permet de distinguer les namespaces cherchés.

**30_naire** · 30/11/2022, 12h24

Merci Sve@r pour ta réponse constructive.
Tu m'as conforté sur la piste (que j'avais déjà emprunté) avec les namespaces.

Ensuite trouver la Doc est une chose, la mettre en place en est une autre.
Apres divers essais, j'ai enfin compris qu'il fallait mettre le namespaces dans chaque répertoire de l'arborescence

Avant:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
for dn in tree1.xpath("/measCollecFile/measData/measInfo/measValue"):
    liste_measObjLdn.append(dn.get("measObjLdn"))

Apres:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
for dn in tree1.xpath("/p:measCollecFile/p:measData/p:measInfo/p:measValue", namespaces={"p" : "toto"}):
    liste_measObjLdn.append(dn.get("measObjLdn"))

Comment parser un fichier XML avec lien Http dans Balise route [Python 3.X]

Python

Discussions similaires

Partager

Partager