IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Sélection de lignes correspond au max d'une variable pour chaque valeur d'une autre variable


Sujet :

R

  1. #1
    Nouveau membre du Club
    Homme Profil pro
    Statisticien
    Inscrit en
    Août 2011
    Messages
    16
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Statisticien
    Secteur : Santé

    Informations forums :
    Inscription : Août 2011
    Messages : 16
    Points : 27
    Points
    27
    Par défaut Sélection de lignes correspond au max d'une variable pour chaque valeur d'une autre variable
    Bonjour à tous,
    voila mon problème, je cherche à extraire les lignes d'un data.frame correspondant au max de la variable temps pour chaque variable individu, mais je bloque. Je sais que cela est faisable avec une boucle, mais mon fichier étant assez important j'aurais aimé éviter.

    Voici mes données:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    DataEx<-data.frame(Indiv=c("A","A","B","B","B","C","C"),Tmp=c(3,4,5,1,3,3,1),Val1=c(1,2,3,4,1,2,1))
     
    > DataEx
      Indiv Tmp Val1
    1     A   3    1
    2     A   4    2
    3     B   5    3
    4     B   1    4
    5     B   3    1
    6     C   3    2
    7     C   1    1
    et je voudrais récupérer:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    1     A   3    1
    3     B   5    3
    6     C   3    2


    Pour l'instant je récupère l'indice pour chaque indiv de la Tmp max avec:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
     tapply(DataEx$Tmp,DataEx$Indiv,which.max)
    A B C 
    2 1 1
    mais il me faudrait l'indice dans le data.frame global et non pour chaque indiv.

    Des idées?
    Je vais continuer à chercher.

    Benoît

  2. #2
    Nouveau membre du Club
    Homme Profil pro
    Statisticien
    Inscrit en
    Août 2011
    Messages
    16
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Statisticien
    Secteur : Santé

    Informations forums :
    Inscription : Août 2011
    Messages : 16
    Points : 27
    Points
    27
    Par défaut
    Bon j'ai réussi avec une boucle, mais je pense qu'il y a moyen d'optimiser donc si vous avez des idées...

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
     
    TmpMax<-tapply(DataEx$Tmp,DataEx$Indiv,max)
     
     TmpMax
    A B C 
    4 5 3 
     
    VecIndiv<-unique(DataEx$Indiv)
     
     VecIndiv
    [1] A B C
    Levels: A B C
     
    IndiceTmpMax<-numeric()
     
     for (i in 1:length(VecIndiv)) {
       IndiceTmpMax[i]<-which(DataEx$Indiv==VecIndiv[i] & DataEx$Tmp==TmpMax[i])
     }
     
     IndiceTmpMax
    [1] 2 3 6
     
    DataExTmpMax<-DataEx[IndiceTmpMax,]
     
     DataExTmpMax
      Indiv Tmp Val1
    2     A   4    2
    3     B   5    3
    6     C   3    2

  3. #3
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut
    Bonjour Benoît,

    Il est possible d'avoir recours à la fonction "sapply" pour se passer de la boucle que vous utilisez. Cependant cela n'est pas très "propre" car la fonction "tmp_max_ind" utilise des éléments ("VecIndiv", "TmpMax") extérieurs à la fonction, mais bon c'est malgré tout un début pour se familiariser avec les fonctions de cette famille (apply, sapply, tapply...).

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    TmpMax<-tapply(DataEx$Tmp,DataEx$Indiv,max)
     
    VecIndiv<-unique(DataEx$Indiv)
     
     
    tmp_max_ind<-function(k)
    {
    	s<-which(DataEx$Indiv==VecIndiv[k] & DataEx$Tmp==TmpMax[k])
    	return(s)
    }
     
    IndiceTmpMax<-sapply(1:length(VecIndiv),tmp_max_ind)
     
    DataExTmpMax<-DataEx[IndiceTmpMax,]

    Cordialement,

    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  4. #4
    Nouveau membre du Club
    Homme Profil pro
    Statisticien
    Inscrit en
    Août 2011
    Messages
    16
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Statisticien
    Secteur : Santé

    Informations forums :
    Inscription : Août 2011
    Messages : 16
    Points : 27
    Points
    27
    Par défaut
    Ok merci,
    j'ai "optimisé" le code en enlevant le tapply. Voici où j'en suis:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
     
    VecIndiv<-unique(DataEx$Indiv)
     
    tmp_max_ind<-function(k) {
      Datak<-DataEx[DataEx$Indiv==VecIndiv[k],]
      MaxTmpk<-max(Datak$Tmp)
    	s<-which(DataEx$Indiv==VecIndiv[k] & DataEx$Tmp==MaxTmpk)
    	return(s)
    }
     
     
    IndiceTmpMax<-sapply(1:length(VecIndiv),tmp_max_ind)
     
    DataExTmpMax<-DataEx[IndiceTmpMax,]
    DataExTmpMax
      Indiv Tmp Val1
    2     A   4    2
    3     B   5    3
    6     C   3    2
    >
    Merci de votre aide.
    Benoît

  5. #5
    Membre averti
    Femme Profil pro
    Inscrit en
    Septembre 2009
    Messages
    272
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations forums :
    Inscription : Septembre 2009
    Messages : 272
    Points : 417
    Points
    417
    Par défaut
    Bonjour,
    voici une variante que je n'ai pas eu le temps de vérifier :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    T <- tapply(DataEx$Tmp,DataEx$Indiv,which.max)
    L2 <- tapply(DataEx[,2], DataEx[,1], function(x) length(unique(x)))
    T[4]<-0
    L2 <- c(0,L2)
    T + cumsum(L2)
    Qu'en pensez-vous?

    Bonne continuation

Discussions similaires

  1. [MySQL] Créer une section pour chaque valeur d'une colonne
    Par helrick dans le forum PHP & Base de données
    Réponses: 5
    Dernier message: 14/08/2013, 00h23
  2. Réponses: 3
    Dernier message: 09/01/2012, 14h08
  3. [Toutes versions] Extraire une valeur d'une ListBox pour l'afficher dans une cellule
    Par stid59 dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 06/04/2009, 22h05
  4. Réponses: 2
    Dernier message: 24/10/2008, 08h04
  5. recuperer la valeur d'une combobox pour la comparer dans une requête
    Par Rukawa dans le forum VB 6 et antérieur
    Réponses: 7
    Dernier message: 30/06/2006, 11h22

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo