IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Problème parsing avec minidom [Python 3.X]


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Ingénieur mécanique
    Inscrit en
    Octobre 2016
    Messages
    19
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Indre et Loire (Centre)

    Informations professionnelles :
    Activité : Ingénieur mécanique
    Secteur : Industrie

    Informations forums :
    Inscription : Octobre 2016
    Messages : 19
    Par défaut Problème parsing avec minidom
    Bonjour,

    J'ai créé un bout de programme qui permet de lire un fichier SML de Suunto (c'est en fait un fichier xml qui comporte des données GPS et mesures cardiaques lors de running).

    Mon parser fonctionne pas mal mais j'ai des objets erronés qui apparaissent dans l'objet miniDOM :

    Nom : Capture1.JPG
Affichages : 294
Taille : 19,3 Ko

    Des "whitespace" type \n ou \t apparaissent en tant qu'objet miniDOM alors qu'ils n’existent pas. Ci-dessous la lecture d'un fichier SML avec un lecteur de fichier XML :

    Nom : Capture2.JPG
Affichages : 309
Taille : 40,5 Ko

    Le problème est que ces "faux" nœuds me causent des problèmes lorsque je veux adresser un nœuds avec des ChilNodes[x]. En effet, le numéro "x" est forcément faux.
    J'ai essayé d'ajouter une fonction du type "cleandom" dans mon code. Même si cela permet effectivement de nettoyer les "faux" nœuds, cela me cause d'autres problèmes dans l'arbre DOM. Cette fonction doit me correspondre une partie du fichier XML.

    Avez-vous une solution pour rendre propre l'arbre DOM ? Càd ne plus avoir ces nœuds fantômes ?

    Merci d'avance.

    rmarion37

  2. #2
    Membre averti
    Homme Profil pro
    Ingénieur mécanique
    Inscrit en
    Octobre 2016
    Messages
    19
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Indre et Loire (Centre)

    Informations professionnelles :
    Activité : Ingénieur mécanique
    Secteur : Industrie

    Informations forums :
    Inscription : Octobre 2016
    Messages : 19
    Par défaut
    Personne pour un petit coup de main ?

  3. #3
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 741
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 741
    Par défaut
    Salut,

    Citation Envoyé par rmarion37 Voir le message
    Personne pour un petit coup de main ?
    Vous ne postez ni le code, ni le fichier XML,... à partir de là, pas facile d'imaginer d'où vient le problème.... Sauf à vous rappeler ce que raconte la documentation du module minidom: "Users who are not already proficient with the DOM should consider using the xml.etree.ElementTree module for their XML processing instead".

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  4. #4
    Membre averti
    Homme Profil pro
    Ingénieur mécanique
    Inscrit en
    Octobre 2016
    Messages
    19
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Indre et Loire (Centre)

    Informations professionnelles :
    Activité : Ingénieur mécanique
    Secteur : Industrie

    Informations forums :
    Inscription : Octobre 2016
    Messages : 19
    Par défaut
    Bonjour,

    Ci-dessous le bout de code pour parser le fichier sml (de type xml). Un peu de compréhension, je commence juste la programmation Python :

    # -*- coding: utf-8 -*-
    """
    Created on Mon Oct 10 10:54:20 2016

    @author: 801333
    """

    import matplotlib.pyplot as plt
    import pandas
    import math
    import numpy as numpy

    from xml.dom import minidom
    from mpl_toolkits.mplot3d import Axes3D

    colonnes = ["time","latitude","longitude", "distance", "speed", "altitude", "gpsaltitude", "heartrate","energy","temperature"]
    lignes = []

    #Fonction parser Samples du SML
    #Latitude et longitude en degrés.
    #Vitesse en km/h
    #Fréquence cardiaque en bpm

    def parseSamples(Samples):
    " Fonction parsing du fichier SML"
    for Sample in Samples.getElementsByTagName('Sample'):

    time = Sample.getElementsByTagName('UTC')[0].firstChild.data

    if (len(Sample.getElementsByTagName('Latitude'))!=0):
    try:
    latitude = math.degrees(float(Sample.getElementsByTagName('Latitude')[0].firstChild.data))
    except ValueError:
    latitude = None
    else:
    latitude = None

    if (len(Sample.getElementsByTagName('Longitude'))!=0):
    try:
    longitude = math.degrees(float(Sample.getElementsByTagName('Longitude')[0].firstChild.data))
    except ValueError:
    longitude = None
    else:
    longitude = None

    if (len(Sample.getElementsByTagName('Distance'))!=0):
    try:
    distance = int(Sample.getElementsByTagName('Distance')[0].firstChild.data)
    except ValueError:
    distance = None
    else:
    distance = None

    if (len(Sample.getElementsByTagName('Speed'))!=0):
    try:
    speed = float((Sample.getElementsByTagName('Speed')[0].firstChild.data)) * 3.6
    except ValueError:
    speed = None
    else:
    speed = None

    if (len(Sample.getElementsByTagName('Altitude'))!=0):
    try:
    altitude = int(Sample.getElementsByTagName('Altitude')[0].firstChild.data)
    except ValueError:
    altitude = None
    else:
    altitude = None

    if (len(Sample.getElementsByTagName('GPSAltitude'))!=0):
    try:
    gpsaltitude = float(Sample.getElementsByTagName('GPSAltitude')[0].firstChild.data)
    except ValueError:
    gpsaltitude = None
    else:
    gpsaltitude = None


    if (len(Sample.getElementsByTagName('HR'))!=0):
    try:
    heartrate = float((Sample.getElementsByTagName('HR')[0].firstChild.data)) * 60 + 0.5
    except ValueError:
    heartrate = None
    else:
    heartrate = None

    if (len(Sample.getElementsByTagName('EnergyConsumption'))!=0):
    try:
    energy = float(Sample.getElementsByTagName('EnergyConsumption')[0].firstChild.data)
    except ValueError:
    energy = None
    else:
    energy = None

    if (len(Sample.getElementsByTagName('Temperature'))!=0):
    try:
    temperature = float(Sample.getElementsByTagName('Temperature')[0].firstChild.data)-273
    except ValueError:
    temperature = None
    else:
    temperature = None

    ligne = (time, latitude, longitude, distance, speed, altitude, gpsaltitude, heartrate, energy, temperature)
    lignes.append(ligne)

    #Programme principal#

    #Parser minidom
    #Fichier 100km de Millau
    doc = minidom.parse('D9F698461C000D00-2016-09-24T09_59_45-0.sml')

    sml = doc.documentElement

    #Parsing du fichier GPX chargé dans doc (gpx = doc.documentElement)
    for node in sml.getElementsByTagName('Samples'):
    parseSamples(node)

    #Création d'un Dataframe Pandas avec le fichier parsé par minidom
    #Interpolation linéaire des données manquantes avec interpolate()
    #Les premières données manquantes sont recopiées en prenant les premières valides avec fillna()
    df = pandas.DataFrame(data = lignes, columns = colonnes)
    df = df.interpolate(axis = 0).fillna(method='backfill')

    #On passe en "entier" les données qui peuvent être simplifiées
    #Les données en "float" sont arrondis à 2 décimales
    df['distance'] = df['distance'].astype(int)
    df["speed"] = df["speed"].round(2)
    df['altitude'] = df['altitude'].astype(int)
    df['gpsaltitude'] = df['gpsaltitude'].astype(int)
    df['heartrate'] = df['heartrate'].astype(int)
    df["energy"] = df["energy"].round(2)
    df["temperature"] = df["temperature"].round(2)

    #Sauvegarde du dataframe
    #df.to_csv('Extract.csv', sep = '\t')

    altitudebaro = numpy.mean(df['altitude'])
    altitudegps = numpy.mean(df['gpsaltitude'])
    df['altitude'] = df['altitude']+int(altitudegps-altitudebaro)

    #Graph en 3D du chemin
    fig = plt.figure()
    ax = Axes3D(fig)
    ax.plot(df['longitude'], df['latitude'], df['altitude'])
    ax.plot(df['longitude'], df['latitude'], df['gpsaltitude'])

    #Graphs divers
    fig = plt.figure()
    plt.plot(df['longitude'],df["latitude"])

    fig = plt.figure()
    plt.plot(df["altitude"])
    plt.plot(df["gpsaltitude"])

    fig = plt.figure()
    plt.plot(df["speed"])
    fig = plt.figure()
    plt.plot(df['heartrate'])




    Je joins aussi le fichier .sml qui comporte toutes les données brutes enregistrées par la montre.
    Avec ce code, je récupère les données (longitude, latitude, ....) dans un dataframe et lorsqu'une donnée est absente ou erronée, je la remplace par un NaN. Les données manquantes sont ensuite extrapoler pour tous les noeuds.

    Par contre, comme expliqué dans mon message initial, l'arbre est pollué par des \n\t et cela me cause des problèmes pour navuguer dans l'arbre.

    Merci d'avance.

    rmarion37

  5. #5
    Expert confirmé

    Homme Profil pro
    Inscrit en
    Octobre 2008
    Messages
    4 307
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Octobre 2008
    Messages : 4 307
    Par défaut
    Salut,

    Il faut mettre ton code entre des balises [code], sans l'indentation ce n'est pas compréhensible.

    Tu as oublié le fichier en pièce jointe.

  6. #6
    Membre averti
    Homme Profil pro
    Ingénieur mécanique
    Inscrit en
    Octobre 2016
    Messages
    19
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Indre et Loire (Centre)

    Informations professionnelles :
    Activité : Ingénieur mécanique
    Secteur : Industrie

    Informations forums :
    Inscription : Octobre 2016
    Messages : 19
    Par défaut
    Toutes mes excuses :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    # -*- coding: utf-8 -*-
    """
    Created on Mon Oct 10 10:54:20 2016
     
    @author: 801333
    """
     
    import matplotlib.pyplot as plt
    import pandas
    import math
    import numpy as numpy
     
    from xml.dom import minidom
    from mpl_toolkits.mplot3d import Axes3D
     
    colonnes = ["time","latitude","longitude", "distance", "speed", "altitude", "gpsaltitude", "heartrate","energy","temperature"]
    lignes = []
     
    #Fonction parser Samples du SML
    #Latitude et longitude en degrés.
    #Vitesse en km/h
    #Fréquence cardiaque en bpm
     
    def parseSamples(Samples):
        " Fonction parsing du fichier SML"
        for Sample in Samples.getElementsByTagName('Sample'):
     
            time = Sample.getElementsByTagName('UTC')[0].firstChild.data
     
            if (len(Sample.getElementsByTagName('Latitude'))!=0): 
                try:
                    latitude = math.degrees(float(Sample.getElementsByTagName('Latitude')[0].firstChild.data))
                except ValueError:
                    latitude = None 
            else:
                latitude = None
     
            if (len(Sample.getElementsByTagName('Longitude'))!=0):
                try:
                    longitude = math.degrees(float(Sample.getElementsByTagName('Longitude')[0].firstChild.data))
                except ValueError:
                    longitude = None             
            else:
                longitude = None
     
            if (len(Sample.getElementsByTagName('Distance'))!=0):
                try:
                    distance = int(Sample.getElementsByTagName('Distance')[0].firstChild.data)
                except ValueError:
                    distance = None                
            else:
                distance = None
     
            if (len(Sample.getElementsByTagName('Speed'))!=0):
                try:
                    speed = float((Sample.getElementsByTagName('Speed')[0].firstChild.data)) * 3.6
                except ValueError:
                    speed = None                
            else:
                speed = None           
     
            if (len(Sample.getElementsByTagName('Altitude'))!=0):
                try:
                    altitude = int(Sample.getElementsByTagName('Altitude')[0].firstChild.data)
                except ValueError:
                    altitude = None 
            else:
                altitude = None
     
            if (len(Sample.getElementsByTagName('GPSAltitude'))!=0):
                try:
                    gpsaltitude = float(Sample.getElementsByTagName('GPSAltitude')[0].firstChild.data)
                except ValueError:
                    gpsaltitude = None 
            else:
                gpsaltitude = None           
     
     
            if (len(Sample.getElementsByTagName('HR'))!=0):
                try:
                    heartrate = float((Sample.getElementsByTagName('HR')[0].firstChild.data)) * 60 + 0.5
                except ValueError:
                    heartrate = None
            else:
                heartrate = None
     
            if (len(Sample.getElementsByTagName('EnergyConsumption'))!=0):
                try:
                    energy = float(Sample.getElementsByTagName('EnergyConsumption')[0].firstChild.data)
                except ValueError:
                    energy = None 
            else:
                energy = None
     
            if (len(Sample.getElementsByTagName('Temperature'))!=0):
                try:
                    temperature = float(Sample.getElementsByTagName('Temperature')[0].firstChild.data)-273
                except ValueError:
                    temperature = None 
            else:
                temperature = None
     
            ligne = (time, latitude, longitude, distance, speed, altitude, gpsaltitude, heartrate, energy, temperature)                
            lignes.append(ligne)
     
    #Programme principal#
     
    #Parser minidom
    doc = minidom.parse('D9F698461C000D00-2016-09-20T11_57_28-0.sml')
     
    sml = doc.documentElement
     
    #Parsing du fichier GPX chargé dans doc (gpx = doc.documentElement)
    for node in sml.getElementsByTagName('Samples'):
        parseSamples(node)
     
    #Création d'un Dataframe Pandas avec le fichier parsé par minidom
    #Interpolation linéaire des données manquantes avec interpolate()
    #Les premières données manquantes sont recopiées en prenant les premières valides avec fillna()
    df = pandas.DataFrame(data = lignes, columns = colonnes)
    df = df.interpolate(axis = 0).fillna(method='backfill')
     
    #On passe en "entier" les données qui peuvent être simplifiées
    #Les données en "float" sont arrondis à 2 décimales
    df['distance'] = df['distance'].astype(int)
    df["speed"] = df["speed"].round(2)
    df['altitude'] = df['altitude'].astype(int)
    df['gpsaltitude'] = df['gpsaltitude'].astype(int)
    df['heartrate'] = df['heartrate'].astype(int)
    df["energy"] = df["energy"].round(2)
    df["temperature"] = df["temperature"].round(2)
     
    #Sauvegarde du dataframe
    #df.to_csv('Extract.csv', sep = '\t')
     
    #Calcul de la moyenne des altitudes baro et GPS
    #L'atitude baro (plus stable) est recalée sur la moyenne GPS par offset
    altitudebaro = numpy.mean(df['altitude'])
    altitudegps = numpy.mean(df['gpsaltitude'])
    #df['altitude'] = df['altitude']+int(altitudegps-altitudebaro)
     
    #Graph en 3D du chemin
    fig = plt.figure()
    ax = Axes3D(fig)
    ax.plot(df['longitude'], df['latitude'], df['altitude'])
    ax.plot(df['longitude'], df['latitude'], df['gpsaltitude'])
     
    #Graphs divers
    fig = plt.figure()
    plt.plot(df['longitude'],df["latitude"])
     
    fig = plt.figure()
    plt.plot(df["altitude"])
    plt.plot(df["gpsaltitude"])
     
    fig = plt.figure()
    plt.plot(df["speed"])
     
    fig = plt.figure()
    plt.plot(df['heartrate'])
    Et voilà.

    Impossible de joindre mo fichier SML. J'ai une erruer qui apparait. Je ré-essaierai dans quelques minutes.

    Avec ce code, je récupère les données (longitude, latitude, ....) dans un dataframe et lorsqu'une donnée est absente ou erronée, je la remplace par un NaN. Les données manquantes sont ensuite extrapolées pour tous les nœuds.

    Par contre, comme expliqué dans mon message initial, l'arbre est pollué par des \n\t et cela me cause des soucis pour naviguer dans l'arbre.

    Merci d'avance.

    rmarion37

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [SAX] Problème de parsing avec SAX
    Par blueLight dans le forum Format d'échange (XML, JSON...)
    Réponses: 5
    Dernier message: 28/08/2009, 23h17
  2. [JAXB] Problème parsing XML avec XSD validant
    Par vano dans le forum Persistance des données
    Réponses: 2
    Dernier message: 26/08/2008, 09h59
  3. [JDOM] java & XML, problème de parsing avec JDOM
    Par OreillePointue dans le forum Format d'échange (XML, JSON...)
    Réponses: 9
    Dernier message: 11/01/2008, 10h17
  4. [DOM] Problème de parsing avec DomParser
    Par iam_free dans le forum Format d'échange (XML, JSON...)
    Réponses: 6
    Dernier message: 21/04/2006, 09h33
  5. Problème de parsing avec tomcat
    Par groupe51 dans le forum Tomcat et TomEE
    Réponses: 2
    Dernier message: 20/04/2006, 09h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo