Doublons et première occurence

**Camille_L** · 31/05/2016, 12h45

Bonjour,

je dispose d'un dataframe (dt), comprenant 3 colonnes (A, B, C) et plus de 80000 lignes, ma colonne A comprend des éléments uniques et des doublons :

A B C
1 x y
1 x y
2 x y
3
3
3
4
...

Je souhaiterais extraire de mon dataframe les enregistrements (lignes) où les valeurs de ma colonne A sont uniques et ceux qui sont multiples, selon l'exemple ci-dessous le résultat souhaité serait:
- pour les données uniques:
A B C
2 x y
4 x y

- pour les données multiples:
A B C
1 x y
1 x y
3 x y
3 x y
3 x y

Je débute tout juste avec le langage R, j'ai trouvé la fonction 'doublon' ou 'unique', mais lorsque je l'applique uniquement les doublons sont reconnus et la première occurrence n'est pas incluse, d'où mon problème...
Une autre alternative serait peut-être l'utilisation d'une boucle 'for' ou de la fonction 'apply', qu'en pensez vous ?

Merci pour vos retours,

Camille

**A. D.** · 31/05/2016, 16h29

Bonjour,

Il y a peut-être moyen de faire mieux, mais une option pour récupérer un vecteur TRUE/FALSE qui va dire pour chaque valeur de A si elle apparait plus d'une fois ou non :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

doublons <- duplicated(dt$A) | duplicated(dt$A, fromLast = TRUE)

HTH !

Cordialement,

A.D.

Doublons et première occurence

R

Discussions similaires

Partager

Partager