R : fusion avec bind_rows, connaître les règles

Version imprimable

17/05/2017, 11h29
CarolineWeb2

R : fusion avec bind_rows, connaître les règles

Bonjour,

Je dois réaliser une fusion verticale de plusieurs bases, de l'année n, (n+1) et (n+2)
En gros, je rajoute des lignes supplémentaires à la 1ère base (n)

Quand il s'agit d'une même variable, le nom reste inchangé d'une année sur l'autre.
Mais il peut y avoir de nouvelles variables. Ainsi en (n+2), il y a des variables qui n'existaient pas en (n) et en (n+1).

Quelles sont les règles à adopter pour réaliser cette fusion avec bind_rows de dplyr.
J'ai déjà regardé la documentation de dplyr. Les exemples y sont trop faciles : les bases à fusionner ont les mêmes variables, les colonnes sont ordonnées de manière identique.
Que se passe-t-il quand les bases disposent de variables différentes et les colonnes ne sont pas ordonnées de la même façon d'une année à l'autre ?

Merci de votre aide.

Bonjour,

Un petit test vous montrera le fonctionnement :
Code:

1 2 3 4 > df0 <- data.frame(V1=1,V2=2) > df0 V1 V2 1 1 2
1) Ajout d'un dataframe dont les variables sont inversées :
Code:

1 2 3 4 5 6 7 8 9 10 > df1 <- data.frame(V2=2,V1=1) > df1 V2 V1 1 2 1 > library(dplyr) > df0 <- bind_rows(df0,df1) > df0 V1 V2 1 1 2 2 1 2
2) Ajout d'un dataframe avec une variable en moins et une autre en plus :
Code:

1 2 3 4 5 6 7 8 9 10 > df2 <- data.frame(V2=2,V3=3) > df2 V2 V3 1 2 3 > df0 <- bind_rows(df0,df2) > df0 V1 V2 V3 1 1 2 NA 2 1 2 NA 3 NA 2 3
Cordialement,

31/05/2017, 17h40
CarolineWeb2

Bonjour,

Merci pour votre message mais je dois dire que je n'ai pas compris votre réponse.
Quelles sont les règles que je pourrais déduire de ces exemples ?

Il me semble qu'avec SAS, il est facile de rajouter des lignes d'une base (n) à une base initiale (n-1). SAS reconnait les colonnes pourvu qu'elles portent le même nom.
Alors que sous R (tout comme Excel), il faut que les colonnes soient ordonnées de la même façon dans toutes les bases avant de les fusionner. Il ne doit pas manquer non plus de colonnes : cela signifie la création de colonne (vide si je n'ai pas d'information), juste pour disposer d'un nombre identique de colonnes.

Merci pour votre aide.

Bonne journée.

Bonjour,

Ne cherchez pas de grandes règles, testez et regardez ce qui se passe.

Le fonctionnement que vous décrivez correspond à la fonction rbind(), encore que les variables n'ont pas besoin d'être dans le même ordre :
Code:

1 2 3 4 5 6 7 > df0 <- data.frame(V1=1,V2=2) > df1 <- data.frame(V2=2,V1=1) > df0 <- rbind(df0,df1) > df0 V1 V2 1 1 2 2 1 2
La fonction rbind() nécessite en effet que toutes les variables soient présentes dans les deux bases :
Code:

1 2 3 4 5 6 7 8 > df2 <- data.frame(V2=2,V3=3) > df0 <- rbind(df0,df2) Error in match.names(clabs, names(xi)) : les noms ne correspondent pas aux noms précédents > df2 <- data.frame(V1=1,V2=2,V3=3) > df0 <- rbind(df0,df2) Error in rbind(deparse.level, ...) : les nombres de colonnes des arguments ne correspondent pas
La fonction bind_rows() dépasse cette limitation (df2 contient la variable V3 qui n'existe pas dans df0 et la fusion s'exécute correctement) :
Code:

1 2 3 4 5 6 7 8 9 10 > df2 <- data.frame(V2=2,V3=3) > df2 V2 V3 1 2 3 > df0 <- bind_rows(df0,df2) > df0 V1 V2 V3 1 1 2 NA 2 1 2 NA 3 NA 2 3
Cordialement,

01/06/2017, 17h36
CarolineWeb2

Bonsoir mgdondon,

Merci beaucoup. Du coup, cela devient plus attrayant d'utiliser R grâce à bind_rows() qui nécessite ni un même ordre des variables ni le même nombre de colonnes.
Encore merci !

Bonne soirée ;-))