IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Courbe de fréquence cumulée


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Par défaut Courbe de fréquence cumulée
    Bonjour à tous,

    Admettons le dataframe suivant, où chaque ligne correspond au nombre de personnes qui est à telle distance d'un arrêt de bus.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    ddt = data.frame(nbr_population = as.integer(runif(1000, 1,1500)), distance_arret = as.integer(runif(1000, 1,40000)))
    Je voudrais donc créer une courbe de fréquence cumulée, avec en X la colonne des distance, et en Y le pourcentage de population, de 0 à 100% en utilisant GGPLOT. J'ai pu m’entraîner à le faire sur Excel (https://zupimages.net/viewer.php?id=20/15/ddbx.png), où on voit que 80% de la population est située à moins de 3418 m d'un arrêt de bus.

    Est-il possible de faire ceci sur R ?

    Merci.

  2. #2
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Par défaut
    Bonjour.
    Oui, c'est possible. Il y a la fonction stat_ecdf qui calcule des densités cumulées.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    library(ggplot2)
     
    set.seed(1)
    ddt <- data.frame(nbr_population = as.integer(runif(1000, 1,1500)), 
                      distance_arret = as.integer(runif(1000, 1,40000)))
     
     
    ggplot(ddt) +
      aes(x=distance_arret,
          weight=nbr_population) +
      geom_line(stat="ecdf")

  3. #3
    Membre confirmé
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Par défaut
    Un grand merci à vous

  4. #4
    Membre confirmé
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Par défaut
    Bonjour, et merci beaucoup pour votre réponse. Votre formule répond entièrement à mon problème.

    Juste par curiosité, j'ai testé de résoudre mon problème avec mes propres données, avec la fonction stat_ecdf, et je me retrouve avec un résultat faux.

    Voici un aperçu de mes données :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    Nombre_de_retraites; Nombre_de_jeunes;                 Distance_gares
    44.0                          88.0                       36.45
    2.8                           11.0                        3.02
    35.0                          70.5                       4.27
    20.0                          85.0                       10.58
    Première solution (celle que vous m'avez donné) :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    data$taux_cum_sum = cumsum(data$Nombre_de_retraites) / sum(data$Nombre_de_retraites)
     
    ggplot(data, aes(x = Distance_gares, y = taux_cum_sum)) +
        geom_path() +
        geom_point()
    J'obtiens une courbe, ressemblant bien plus au résultat obtenu sur Excel : https://zupimages.net/viewer.php?id=20/15/nd18.png


    Pour comparaison, voici la courbe obtenue sur excel : https://zupimages.net/viewer.php?id=20/15/yob7.png

    Deuxième solution :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    ggplot(data) +
        aes(x=Distance_gares,
            weight=Nombre_de_retraites) +
        geom_line(stat="ecdf")

    J'obtiens cette courbe : https://zupimages.net/viewer.php?id=20/15/aswx.png

    Je précise que cette courbe semble venir par défaut. Effectivement, en tentant de changer la valeur des Y, je tombe toujours sur cette courbe.

    Ai-je oublié un paramètre sur la deuxième solution ?

    Mon tableau de données : https://drive.google.com/open?id=151...SFVqcXXscYfBo0

    Merci.

  5. #5
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Par défaut
    Bonjour.

    Tu as raison, je n'avais pas vu que stat_ecdf ne tenait pas compte des pondérations. Il y a un message sur StackOverflow à ce sujet, qui indique ta solution avec cumsum (bien penser à trier par distance croissante avant !) comme une bonne manière de tracer la courbe.
    Sinon il y a apparemment sur GitHub un code pour masquer la fonction de {ggplot2} par une autre qui tient compte des poids, je n'ai pas testé.

    PS : sur ton graphique Excel, l'axe des X a l'air plus catégoriel que quantitatif (les graduations ont l'air bizarres) ?!

  6. #6
    Membre confirmé
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Par défaut
    Excellent ! Merci pour ce lien vers ce forum. Il a visiblement échappé à toute mes recherches ...

    Pour l'axe des X de mon graphique sur Excel, il s'agit d'un format d'axe que je n'ai pas réussi à changer dans les paramètres. L'écart entre les chiffres est très petit, ce qui fait que j'ai énormément de chiffres sur cet axe. Je regarderai plus tard comment agrandir l'espace (tout les 5000 par exemple).

    S'il n'est pas possible d'utiliser stat_ecdf si on utilise des pondérations, dans quels situations l'utilise t-on généralement ?

    Merci pour toute ces informations qui me feront progresser

Discussions similaires

  1. Gant + Courbe d'effectif cumulé
    Par Kichonsama dans le forum Project
    Réponses: 0
    Dernier message: 24/08/2018, 09h40
  2. [GRAPH] Superposer deux courbes de pourcentages cumulés
    Par kmel53 dans le forum ODS et reporting
    Réponses: 1
    Dernier message: 21/10/2012, 11h48
  3. Proc tabulate fréquence cumulé
    Par takout dans le forum SAS Base
    Réponses: 1
    Dernier message: 20/01/2011, 22h13
  4. courbe d'incidence cumulée
    Par bibi1 dans le forum SAS STAT
    Réponses: 0
    Dernier message: 23/06/2010, 22h11
  5. Histrogramme des fréquences cumulées
    Par joyeux_lapin13 dans le forum SAS STAT
    Réponses: 0
    Dernier message: 03/06/2010, 12h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo