IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Jointure 2 Dataframes - Problème


Sujet :

Python

  1. #1
    Membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Points : 54
    Points
    54
    Par défaut Jointure 2 Dataframes - Problème
    Bonjour,

    Je dispose de 2 dataframes.

    Le premier :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    df1 = pd.DataFrame({'nom_combinaison': ['Combinaison1', 'Combinaison1', 'Combinaison1', 'Combinaison2','Combinaison2', 'Combinaison2', 'Combinaison3', 'Combinaison3', 'Combinaison3'], 'prenom': ['Personne2', 'Personne3', 'Personne1', 'Personne2', 'Personne4', 'Personne1', 'Personne2', 'Personne5', 'Personne1']})
     
    df2 = pd.DataFrame({'prenom': ['Personne1', 'Personne2', 'Personne3', 'Personne4', 'Personne5'], 'valeur1' : [2, 1, 1, 4, 5], 'valeur2' : [7, 4, 1, 1, 2], 'valeur3' : [1, 2, 3, 3, 1], 'valeur4' : [7, 8, 9, 4, 5], 'valeur5' : [10, 11, 12, 2, 6]})
    Je souhaite joindre les valeurs de df2 dans df1.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    df1 = pd.DataFrame({'nom_combinaison': ['Combinaison1', 'Combinaison1', 'Combinaison1', 'Combinaison2','Combinaison2', 'Combinaison2', 'Combinaison3', 'Combinaison3', 'Combinaison3'], 'prenom': ['Personne2', 'Personne3', 'Personne1', 'Personne2', 'Personne4', 'Personne1', 'Personne2', 'Personne5', 'Personne1']})
     
    df2 = pd.DataFrame({'prenom': ['Personne1', 'Personne2', 'Personne3', 'Personne4', 'Personne5'], 'valeur1' : [2, 1, 1], 'valeur2' : [7, 4, 1], 'valeur3' : [1, 2, 3], 'valeur4' : [7, 8, 9], 'valeur5' : [10, 11, 12]})
     
     
    test = pd.merge(df1, df2, how = "outer", on = ["prenom"])
    test = test.sort_values(by = ["nom_combinaison", "prenom"])
    Malheureusement, j'ai des NA qui apparaissent un peu partout :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
     
    nom_combinaison       prenom  valeur1  valeur2  valeur3
    45     Combinaison_1    Personne2          NaN                NaN           NaN
    54     Combinaison_1    Personne3          NaN                NaN           NaN
    0      Combinaison_1    Personne1          2.0                1.0           1.0
    46     Combinaison_2    Personne2          NaN                NaN           NaN
    71     Combinaison_2    Personne4          NaN                NaN           NaN
    1      Combinaison_2    Personne1          2.0                1.0           1.0
    47     Combinaison_3    Personne2          NaN                NaN           NaN
    95     Combinaison_3    Personne5          NaN                NaN           NaN
    2      Combinaison_3    Personne1          2.0                1.0           1.0
    Je remarque que c'est systématiquement 1 personne par combinaison qui est jointe. Le reste, jamais. Le champ "prenom" est de type Series :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    print(type(df1["prenom"]))
    print(type(df2["prenom"]))
     
    <class 'pandas.core.series.Series'>
    <class 'pandas.core.series.Series'>
    Bref, je n'arrive pas à comprendre... Existe t-il une autre manière de joindre ces dataframes ?
    Merci.

  2. #2
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Salut

    Citation Envoyé par preliator Voir le message
    Bref, je n'arrive pas à comprendre... Existe t-il une autre manière de joindre ces dataframes ?
    Si vous partez de 2 tableaux pour en faire un seul, il va falloir une clef (unique) pour faire la jointure. Par défaut, ce sera l'index. Et là où les colonnes ne sont pas renseignées, on se retrouve avec un Nan...
    Ceci dit, "joindre" ne dit pas ce que vous cherchez à obtenir... et une jointure n'est peut être pas ce qu'il faut pour le réaliser.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Rédacteur

    Avatar de danielhagnoul
    Homme Profil pro
    Étudiant perpétuel
    Inscrit en
    Février 2009
    Messages
    6 389
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 73
    Localisation : Belgique

    Informations professionnelles :
    Activité : Étudiant perpétuel
    Secteur : Enseignement

    Informations forums :
    Inscription : Février 2009
    Messages : 6 389
    Points : 22 933
    Points
    22 933
    Billets dans le blog
    125
    Par défaut


    df2 est bancal, les arrays doivent avoir la même longueur.

    Blog

    Sans l'analyse et la conception, la programmation est l'art d'ajouter des bogues à un fichier texte vide.
    (Louis Srygley : Without requirements or design, programming is the art of adding bugs to an empty text file.)

  4. #4
    Membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Points : 54
    Points
    54
    Par défaut
    Citation Envoyé par danielhagnoul Voir le message


    df2 est bancal, les arrays doivent avoir la même longueur.
    Oups ! C'est corrigé Malheureusement, le problème ne semble pas venir de la.

  5. #5
    Membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Points : 54
    Points
    54
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Salut



    Si vous partez de 2 tableaux pour en faire un seul, il va falloir une clef (unique) pour faire la jointure. Par défaut, ce sera l'index. Et là où les colonnes ne sont pas renseignées, on se retrouve avec un Nan...
    Ceci dit, "joindre" ne dit pas ce que vous cherchez à obtenir... et une jointure n'est peut être pas ce qu'il faut pour le réaliser.

    - W
    Merci pour votre réponse.

    Effectivement, pour moi, je renseigne la clef unique dans "on = ["prenom"]", ou "prenom" est la colonne dont je me sers pour la jointure. Par exemple, dans "test" (le dataframe final où j'ai joins les deux dataframes), je remarque des valeurs NA dans "Personne2", "Personne3", etc alors que ces modalités sont pourtant bien renseignées dans df2. Au final, c'est le fait que seulement 1 personnes par combinaison est correctement jointe que j'ai du mal à comprendre ...

  6. #6
    Membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Points : 54
    Points
    54
    Par défaut
    Bon, j'ai finalement résolu le problème ... c'était des espaces " " dans mon dataframe "df2" qui foiraient ma jointure. J'ai résolu le problème en les supprimant :')

    Merci à vous.

  7. #7
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 287
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 287
    Points : 36 776
    Points
    36 776
    Par défaut
    Salut,

    Citation Envoyé par preliator Voir le message
    Bon, j'ai finalement résolu le problème ... c'était des espaces " " dans mon dataframe "df2" qui foiraient ma jointure. J'ai résolu le problème en les supprimant :')
    Il n'y a pas d'espaces dans le code que vous avez posté.
    Par ailleurs, essayez "plus simple":
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    >>> d1 = pd.DataFrame(dict(P=list('abc'), V=[1, 2, 3]))
    >>> d2 = pd.DataFrame(dict(P=list('aaa'), C=list('xyz'))
    çà donne:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    >>> pd.merge(d1, d2, how='outer', on=['P'])
       P  V    C
    0  a  1    x
    1  a  1    y
    2  a  1    z
    3  b  2  NaN
    4  c  3  NaN
    Et vous voyez que çà à dupliqué la ligne a, 1 pour ajouter les différents C et qu'on a des NaN là où il n'y a pas de C à mettre en face.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Pandas - DataFrame - Problème de resampling
    Par Gabriel_1234 dans le forum Général Python
    Réponses: 2
    Dernier message: 22/08/2019, 14h57
  2. Import .txt vers Panda Dataframe, problème header
    Par pwetzou dans le forum Général Python
    Réponses: 12
    Dernier message: 03/02/2017, 09h37
  3. Réponses: 18
    Dernier message: 06/10/2009, 14h54
  4. [jointure] Petit problème sur le type de jointure...
    Par SteelBox dans le forum Langage SQL
    Réponses: 13
    Dernier message: 13/02/2004, 18h55
  5. problème de requête avec jointures
    Par tinhat dans le forum Requêtes
    Réponses: 7
    Dernier message: 11/08/2003, 10h33

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo