Compter le nombre de doublons dans une colonne
Bonjour à tous!
J'ai importé un fichier .csv dans un data.frame.
Dans une colonne j'ai le nom de plusieurs utilisateurs. Certains apparaissent une fois, d'autres apparaissent plusieurs fois.
J'aimerai compter le nombre de fois que chaque utilisateur à été "cité" dans cette colonne.
Il me semble que la fonction duplicated() pourrait m'aider, seulement elle renvoie, en valeur logique, si l'élément est dupliqué ou non. Mais ne me donne pas l'information de combien de fois et cela pour chaque utilisateur.
J'ai donc essayé de stocker dans un second data.frame les utilisateurs uniques dans une colonne et le nombre de fois ou ils apparaissaient dans mon premier data.frame. Seulement je m'emmêle les pinceaux... Auriez-vous une idée pour me débloquer ?
Je vous remercie,
Justine
Compter le nombre de doublons dans une colonne
Bonjour,
Pourquoi ne pas faire simplement un tableau de fréquences ?
Cordialement,
Compter le nombre de doublons dans une colonne
Bonjour,
Vous pouvez charger le résultat de la fonction table() dans un dataframe puis faire une sélection dessus :
Code:
1 2 3 4 5 6
| > df <- data.frame(V1=c("A","A","A","B","B","C","C","C","C","C"))
> V1.freq <- as.data.frame(table(df$V1))
> V1.freq[V1.freq$Freq >= 3,]
Var1 Freq
1 A 3
3 C 5 |
Cordialement,
Compter le nombre de doublons dans une colonne
Quand vous ne connaissez pas le nom des variables, vous pouvez commencer par afficher les premières lignes de l'objet à l'aide de la fonction head() ou sa structure à l'aide de la fonction str(). Ici il fallait d'abord charger le résultat de la fonction table() dans un dataframe.
Cordialement,