IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

écarts entre 2 dataframe pandas


Sujet :

Calcul scientifique Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé Avatar de francis60
    Homme Profil pro
    Modélisation coût/process
    Inscrit en
    Août 2011
    Messages
    184
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Modélisation coût/process
    Secteur : Conseil

    Informations forums :
    Inscription : Août 2011
    Messages : 184
    Par défaut écarts entre 2 dataframe pandas
    Bonjour,

    J'ai 2 dataframe (com1 et com2) obtenus depuis XL avec pd.read_excel("...

    Je défini les écarts dans un dataframe de booléens avec gap=(com1.fillna(0) != com2.fillna(0))
    Je remplace les NaN par 0 sinon le != ne donne pas le résultat que je souhaite

    Je souhaite obtenir les coordonnées et les valeurs des cellules en écart
    Je voudrais éviter de faire des boucles qui itèrent sur les rows et les columns en travaillant plutôt de façon vectorielle pour bénéficier de l'efficacité de pandas

    Merci pour vos conseils

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
     
    com1
    Out[36]: 
       Unnamed: 0  Unnamed: 1  Unnamed: 2 Unnamed: 3 Unnamed: 4
    0         NaN         NaN         NaN        NaN        NaN
    1         NaN         NaN         NaN        NaN        NaN
    2         NaN         NaN         NaN        NaN        NaN
    3         NaN         NaN         NaN        ghg          k
    4         NaN         NaN         NaN        NaN        NaN
    5         NaN         NaN         NaN          h        NaN
    6         NaN         NaN         NaN        NaN        NaN
    7         NaN         NaN         NaN        NaN        NaN
    8         NaN         NaN         NaN        112        NaN
     
    com2
    Out[37]: 
       Unnamed: 0  Unnamed: 1 Unnamed: 2 Unnamed: 3 Unnamed: 4
    0         NaN         NaN         qq        NaN        NaN
    1         NaN        45.0        NaN        NaN        NaN
    2         NaN         NaN        NaN        NaN        NaN
    3         NaN         NaN        NaN        ghg          k
    4         NaN         NaN        NaN        NaN        NaN
    5         NaN         NaN        NaN          x        NaN
    6         NaN         NaN        NaN        NaN        NaN
    7         NaN         NaN        NaN        NaN        NaN
    8         NaN         NaN        NaN        110        NaN
     
    gap
    Out[38]: 
       Unnamed: 0  Unnamed: 1  Unnamed: 2  Unnamed: 3  Unnamed: 4
    0       False       False        True       False       False
    1       False        True       False       False       False
    2       False       False       False       False       False
    3       False       False       False       False       False
    4       False       False       False       False       False
    5       False       False       False        True       False
    6       False       False       False       False       False
    7       False       False       False       False       False
    8       False       False       False        True       False
    Le résultat souhaité:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    0, 2, NaN, 'qq'
    1, 1, NaN, 45
    5, 3, 'h', 'x'
    8, 3, 112, 110

  2. #2
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    salut,

    j'ai pas l'impression qu'il existe une méthode toute faite déjà prête à l'emploi, concernant les NaN il semble qu'il faille dealer avec numpy.nan.

    solution naïve avec deux boucles imbriquées :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    >>> a = pd.DataFrame(np.array([  [np.nan, np.nan, 'toto', np.nan, np.nan],
    ...                              [np.nan, np.nan, np.nan, np.nan, np.nan],
    ...                              [np.nan, np.nan, np.nan, np.nan,      3]  ]))
    >>>
    >>> b = pd.DataFrame(np.array([  [np.nan, 'toto', np.nan, np.nan, np.nan],
    ...                              [np.nan, np.nan,      5, np.nan, np.nan],
    ...                              [np.nan, np.nan, np.nan, np.nan,      3]  ]))
    >>> assert(a.shape == b.shape)
    >>> print('\n'.join([f'{i}, {j}, {a.at[i,j]}, {b.at[i,j]}' for i in range(a.shape[0]) for j in range(a.shape[1]) if a.at[i,j] != b.at[i,j]]))
    0, 1, nan, toto
    0, 2, toto, nan
    1, 2, nan, 5
    ou sa version déroulée :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    for j in range(a.shape[1]):
       for i in range(a.shape[0]):
          if a.at[i,j] != b.at[i,j]:
             print('{}, {}, {}, {}'.format(i, j, a.at[i,j], b.at[i,j]))

  3. #3
    Membre confirmé Avatar de francis60
    Homme Profil pro
    Modélisation coût/process
    Inscrit en
    Août 2011
    Messages
    184
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Modélisation coût/process
    Secteur : Conseil

    Informations forums :
    Inscription : Août 2011
    Messages : 184
    Par défaut
    Merci beaucoup.

    La valeur NaN a un comportement bizarre avec les tests booléens:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    com1.iloc[0,2]
    Out[77]: nan
     
    com1.iloc[0,2] != com1.iloc[0,2]
    Out[78]: True

  4. #4
    Expert confirmé Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 041
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 041
    Par défaut
    Citation Envoyé par francis60 Voir le message
    La valeur NaN a un comportement bizarre avec les tests booléens
    il semblerait que ce soit un effet connu

  5. #5
    Membre confirmé Avatar de francis60
    Homme Profil pro
    Modélisation coût/process
    Inscrit en
    Août 2011
    Messages
    184
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Modélisation coût/process
    Secteur : Conseil

    Informations forums :
    Inscription : Août 2011
    Messages : 184
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    np.nan == np.nan
    Out[12]: False
    Afin des propager les erreurs de façon systématique dans les calculs...

    J'ai trouvé un contournement du problème avec .fillna(0)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
     
        com1.fillna(0, inplace=True)
        com2.fillna(0, inplace=True)
        gap=(com1 != com2)
        print(gap)
        for j in range(gap.shape[1]):
            for i in range(gap.shape[0]):
                if (com1.iloc[i,j] != com2.iloc[i,j]):
                    print('{}, {}, {}, {}'.format(i, j, sh1.iloc[i,j], sh2.iloc[i,j]))
     
       Unnamed: 0  Unnamed: 1  Unnamed: 2  Unnamed: 3  Unnamed: 4
    0       False       False        True       False       False
    1       False        True       False       False       False
    2       False       False       False       False       False
    3       False       False       False       False       False
    4       False       False       False       False       False
    5       False       False       False        True       False
    6       False       False       False       False       False
    7       False       False       False       False       False
    8       False       False       False        True       False
     
    1, 1, nan, 45.0
    0, 2, nan, qq
    5, 3, h, x
    8, 3, 112, 110
    Pour éviter la double boucle, il faudrait une fonction pandas pour extraire les coordonnées de gap qui sont True
    In gap.magic(True)
    Out [(0,2), (1,1), (5,3), (8,3)]

Discussions similaires

  1. [Dates] Calcul d'écart entre 2 dates
    Par Sytchev3 dans le forum Langage
    Réponses: 4
    Dernier message: 17/10/2007, 01h39
  2. Requète: recherche d'écarts entre dates de commande
    Par alexandre.babey dans le forum Requêtes et SQL.
    Réponses: 3
    Dernier message: 24/05/2007, 21h12
  3. écart entre lignes d'une table indésiré sous IE
    Par Galkir dans le forum Balisage (X)HTML et validation W3C
    Réponses: 2
    Dernier message: 29/04/2007, 13h50
  4. [VBA-E] Calculs d'écarts entre 2 dates
    Par harpic dans le forum Macros et VBA Excel
    Réponses: 8
    Dernier message: 04/12/2006, 16h48
  5. Petit écart entre 2 div sous FF
    Par Death83 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 3
    Dernier message: 14/10/2005, 20h25

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo