IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Fusion data.frame sans doublons


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre habitué
    Femme Profil pro
    Étudiant
    Inscrit en
    Août 2017
    Messages
    10
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Août 2017
    Messages : 10
    Par défaut Fusion data.frame sans doublons
    Bonjour à tous !

    J'ai 4 data frames de la forme

    a b c
    1 2 3
    2 3 4
    4 5 6
    et j'aimerai les fusionner en un seul mais sans des doublons sur la première colonne ie si
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    data.frame1 = 
     
    	   a   b   c
       1   2   3
       2   3   4
       4   5   6

    et

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    data.frame2 = 
     
         a   b   c
     1   4   6
      3   3   4
      5   5   6
    cela devienne :

    a b c
    1 2 3
    2 3 4
    4 5 6
    3 3 4
    5 5 6
    J'ai essayée une méthode qui consiste à fusionner les 4 data.frames avec merge dans un data.frame "all".
    ensuite j'ai fait doublons<-which(duplicated(all$column1))
    puis all<-all[-doublons,]
    mais cela n'a pas fonctionné.

    De plus, une fois que j'aurai obtenu mon data.frame final "all", j'aimerai le fusionner avec un autre data.frame "tab", sous la condition que si un élément de la colonne 1 de "all"=un élément de la colonne 1 de "tab " alors on garde les autres colonnes et on les mets les unes à la suite des autres.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    all=
         a   b   c
       1   4   6
       3   3   4
       5   5   6 
     
    tab=
         a   e   f
       1   7   5
       2   9   8
       5   9   2
    Devienne

    a b c e f
    1 4 6 7 5
    5 5 6 9 2
    Est ce que vous auriez des idées ? (J'espère avoir été assez claire...)

    Merci beaucoup !

  2. #2
    Membre Expert
    Inscrit en
    Novembre 2009
    Messages
    707
    Détails du profil
    Informations forums :
    Inscription : Novembre 2009
    Messages : 707
    Par défaut Fusion data.frame sans doublons
    Bonjour,

    • Une proposition intuitive pour la première partie :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    > df1 <- data.frame(a=c(1,2,4),b=c(2,3,5),c=c(3,4,6))
    > df1
      a b c
    1 1 2 3
    2 2 3 4
    3 4 5 6
    > df2 <- data.frame(a=c(1,3,5),b=c(4,3,5),c=c(6,4,6))
    > df2
      a b c
    1 1 4 6
    2 3 3 4
    3 5 5 6
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    > all <- merge(df2,df1,by="a",all=T, suffixes=c("",".update"))
    > all
      a  b  c b.update c.update
    1 1  4  6        2        3
    2 2 NA NA        3        4
    3 3  3  4       NA       NA
    4 4 NA NA        5        6
    5 5  5  6       NA       NA
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    > all$b <- ifelse(!is.na(all$b.update),all$b.update,all$b)
    > all$c <- ifelse(!is.na(all$c.update),all$c.update,all$c)
    > all$b.update <- NULL
    > all$c.update <- NULL
    > all
      a b c
    1 1 2 3
    2 2 3 4
    3 3 3 4
    4 4 5 6
    5 5 5 6
    • Une autre proposition plus générale :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    > df1 <- data.frame(a=c(1,2,4),b=c(2,3,5),c=c(3,4,6))
    > df2 <- data.frame(a=c(1,3,5),b=c(4,3,5),c=c(6,4,6))
    Création des observations manquantes dans df2 :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    > df2 <- merge(df2,df1["a"],by="a",all=TRUE)
    > df2
      a  b  c
    1 1  4  6
    2 2 NA NA
    3 3  3  4
    4 4 NA NA
    5 5  5  6
    Mise à jour de df2 avec df1 :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    > library(data.table)
    > Cols <- names(df1)[-1]
    > iCols <- paste0("i.", Cols)
    > all <- setDT(df2)[df1, (Cols) := mget(iCols), on="a"][]
    > all
       a b c
    1: 1 2 3
    2: 2 3 4
    3: 3 3 4
    4: 4 5 6
    5: 5 5 6
    • La deuxième partie ne pose pas de problème particulier :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    > tab <- data.frame(a=c(1,2,5),e=c(7,9,9),f=c(5,8,2))
    > tab
      a e f
    1 1 7 5
    2 2 9 8
    3 5 9 2
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    > all <- merge(all,tab,by="a")
    > all
      a b c e f
    1 1 2 3 7 5
    2 2 3 4 9 8
    3 5 5 6 9 2
    Cordialement,

  3. #3
    Membre habitué
    Femme Profil pro
    Étudiant
    Inscrit en
    Août 2017
    Messages
    10
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Août 2017
    Messages : 10
    Par défaut
    Bonjour,
    Meilleurs vœux !

    Merci beaucoup pour votre réponse ! J'ai essayé et ça a bien marché sur ma base de données.

    Pour la seconde partie, en fait, mes deux tableaux ont plusieurs colonnes identiques. Du coup je me retrouve à la fin avec des colonnes sous la formes c.x et c.y. Avez vous une solution pour les supprimer automatiquement ?

    Merci pour votre aide !

Discussions similaires

  1. Réponses: 1
    Dernier message: 21/05/2014, 10h08
  2. Fusion sans doublon de données de champs
    Par leberger dans le forum Requêtes
    Réponses: 1
    Dernier message: 21/04/2011, 17h34
  3. Fusion de table sans doublon
    Par dfrthreads dans le forum Développement de jobs
    Réponses: 2
    Dernier message: 10/08/2010, 11h55
  4. [Tableaux] Fusion & Tri Sans Doublons
    Par pouillou dans le forum Langage
    Réponses: 3
    Dernier message: 20/03/2006, 11h03
  5. Comment mettre à jour une ligne sans doublon via déclencheur
    Par fuelcontact dans le forum MS SQL Server
    Réponses: 2
    Dernier message: 02/08/2004, 15h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo