1 pièce(s) jointe(s)
Sélectionner des lignes d'un tableau
Bonjour,
Dans le cadre de ma Licence 3 en mathématiques, nous devons utilisé R pour un projet en statistique. Pour cela j'essaie de me familiariser avec un dataset que j'ai trouvé sur le net.
J'explique mon problème : je voudrais sélectionner uniquement les lignes dont la colonne "DATE_STARTED" est comprise uniquement entre le 01/09/2020 et le 06/09/2020. Avec le code suivant , cela ne me retourne rien. J'ai pas de message d'erreurs , mais j'ai 0 lignes sélectionné avec cette méthode. Voila le code et le fichier :
Code:
1 2 3 4 5 6 7 8
| ```{r}
library(dplyr)
library(readxl)
monDataset <- read_excel("gadd.xlsx")
doublons <- which(duplicated(monDataset$ISELL_ORDER_NUMBER))
data2<-monDataset[-doublons,]
data3<-filter(data2, DATE_STARTED>=01/09/2020 & DATE_STARTED<=06/09/2020)
``` |
Merci d'avance,
Bonne soirée.
Sélectionner des lignes d'un tableau
Bonjour,
je vais vous donner une des solutions, je pense que les autres trouveraient plusieurs,
Remarque
- Que veux tu faire avec les lignes
Code:
1 2
| doublons <- which(duplicated(monDataset$ISELL_ORDER_NUMBER))
data2<-monDataset[-doublons,] |
Tu veux supprimer les doublons?
- n'oublie pas que le format est date
- Tu as besion de la library(lubridate), pour manipuler la date
Voici mon code que je te suggère, je pense que c'est l'un des solutions, et il y a d'autre meilleur
Merci de faire une remarque ou de retour, si tu as quelque chose à me dire
Code:
1 2 3 4 5 6 7 8 9 10
|
library(readxl)
library(dplyr)
library(lubridate)
monDataset <- read_excel("gadd.xlsx")
monDataset$double <- monDataset$ISELL_ORDER_NUMBER %>% duplicated()
data2<- monDataset %>% filter(double=='FALSE')
data3<-filter(data2, as.Date(DATE_STARTED)>="2020/09/01" & as.Date(DATE_STARTED)<="2020/09/06") |