IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Besoin d'aide pour des notions de statistique


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Morbihan (Bretagne)

    Informations forums :
    Inscription : Mai 2012
    Messages : 12
    Points : 15
    Points
    15
    Par défaut Besoin d'aide pour des notions de statistique
    bonjour à tous!
    Les statistiques sont pour moi un lointain souvenir... et j'aurais donc besoin de votre aide pour un petit problème pratique.
    J'ai ce genre de données:
    J'y observe qu'en dessous de 250 utilisateurs, j'ai très peu d'incidents. Mais quand on passe ce seuil, boom, ça explose.
    Je cherche une notion de statistique qui me permettrait d'identifier ce seuil à ne pas dépasser (de 200 à 249) ou alors le premier seuil qui dépasse(de 250 à 299) cela m'irait aussi. Est-ce que quelqu’un pourrait m'aider s’il vous plaît?
    [['de 0 à 49 : ' 3]
    ['de 50 à 99 : ' 2]
    ['de 100 à 149 : ' 1]
    ['de 150 à 199 : ' 4]
    ['de 200 à 249 : ' 22]
    ['de 250 à 299 : ' 128]
    ['de 300 à 349 : ' 250]
    ['de 350 à 399 : ' 330]
    ['de 400 à 449 : ' 172]
    ['de 450 à 499 : ' 82]
    ['de 500 à 549 : ' 22]
    ['de 550 à 599 : ' 9]]

  2. #2
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    Décembre 2013
    Messages
    4 050
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2013
    Messages : 4 050
    Points : 9 386
    Points
    9 386
    Par défaut
    Il y a un truc surprenant qui me fait réagir dans tes données, c'est que au delà de 400 utilisateurs, le nombre d'incidents diminue.
    C'est contraire à la logique... et donc, peut-être que les données ne représentent pas ce qu'on imagine.

    J'imagine que tes vraies données , c'est ça : Tu as un site internet ( par exemple, ça peut être tout à fait autre chose). Pour chaque jour, tu as d'une part le nombre de connexions, et le nombre d'incidents.

    ex : 1er Janvier 2017 : 260 connexions, 2 incidents
    etc etc..
    Et tu fais une synthèse : Pour tous les jours où il y a eu entre 250 et 299 connectés, au total, j'ai eu 128 incidents.
    Mais dans ta synthèse, tu ne dis pas si les jours avec 250 à 299 connectés, ça représente 150 jours , ou 300 jours, ou 3 jours
    En fait, j'imagine que tes données, si on rajoutait la colonne nombre de nours, elles ressembleraient à ça :

    [['de 0 à 49 : ' 3 2 jours ]
    ['de 50 à 99 : ' 2 2 jours]
    ['de 100 à 149 : ' 1 3 jours ]
    ['de 150 à 199 : ' 4 4 jours]
    ['de 200 à 249 : ' 22 5 jours]
    ['de 250 à 299 : ' 128 25 jours]
    ['de 300 à 349 : ' 250 40 jours]
    ['de 350 à 399 : ' 330 50 jours ]
    ['de 400 à 449 : ' 172 22 jours ]
    ['de 450 à 499 : ' 82 10 jours]
    ['de 500 à 549 : ' 22 2 jours]
    ['de 550 à 599 : ' 9 1 jour ]]

    On donc on pourrait dire :

    Tu as très peu d'incident quand tu as plus de 500 connexions, mais c'est parce que tu as très rarement plus de 500 connexions. A chaque fois que tu as plus de 500 connexions, tu as une dizaine d'incidents dans la journée, contre 5 ou 6 incidents par jour les jours 'moyens'.

    Du coup, on pourrait calculer le nombre d'incidents par jour, selon le nombre de connexions. Et on aurait une courbe plus significative.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  3. #3
    Membre à l'essai
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Morbihan (Bretagne)

    Informations forums :
    Inscription : Mai 2012
    Messages : 12
    Points : 15
    Points
    15
    Par défaut héhé
    Merci pour ta réponse! Tu vois vite les choses
    sans aller aussi loin, et pour simplifier le tableau, si j'ai ça:
    1:3
    2: 2
    3: 1
    4: 4
    5: 22
    6: 128
    7: 330
    etc.

    comment puis-je avec une formule pour mesurer le changement brutal entre des valeurs qui ont une moyenne autour de la dizaine, et d'autres qui passent directement au dessus de la centaine?
    Et donc comment identifier le seuil de déclenchement des gros incidents?

  4. #4
    Nouveau membre du Club
    Homme Profil pro
    https://rplusplus.com/
    Inscrit en
    Février 2018
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : https://rplusplus.com/
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2018
    Messages : 12
    Points : 35
    Points
    35
    Par défaut
    Si tu as suffisamment de valeurs, tu pourrais utiliser inf et sup.

    Quand tu as une série de valeur, disons 3, 2, 1, 4, 2, 3, 4, 2, 1, 2, 3, 4, tu peux calculer ses quartiles (ça va, la notion de quartile ?).

    Pour ça, le plus simple, c'est d'abord de les trier:
    1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4
    Ici Q1 = 2 (entre les 3e et 4e valeurs) et Q3 = 3.5 (entre les 9e et 10e valeur). Il existe de petites variations de convention sur la définition des quartiles, mais ça ne changera pas grand chose, et ça nous éloigne du sujet.

    On calcule alors sup par la formule sup = 2.5*Q3-1.5*Q1
    Ici ça nous donne sup = 5.75.

    Ce que ce 5.75 représente, c'est que, au vue de la série de valeur que l'on a jusque-là, une valeur qui vaudrait 5.75 ou plus grand, ça serait assez extrême. Si tu fait ce même calcul sur la taille des hommes en France, tu va trouver un sup autour de 2m10, pas exemple. Ca peut arriver de la dépasser, mais normalement, c'est rare.

    Donc pour revenir à ton cas, si tu as cette série de valeur, et tout d'un coup une valeure (ou deux de suite, si tu veux) qui dépasse ce seuil (genre 22), tu peux le détecter, et dire que le 22 était trop grand par rapport à ce qu'il y a avant.
    Tu peux jouer sur les paramètres pour une détection de seuil plus ou moins sensible. Si en prenant juste le sup, tu as tendance à détecter la marche trop tôt (si tes variables sont très aléatoires, ça peux arriver), tu peux prendre 3.5*Q3-2.5*Q1 à la place du sup. Ou 4.5*Q3-3.5*Q1 si ca détecte encore des marches trop faible.


    De manière plus algorithmique, ça veux dire que tu as une liste de valeurs qu'on va noter v(1), v(2), v(3), etc. On peux proposer un algorithme de détection qui ressemble à:

    Tu pars de i = 1.
    Tant que v(i+1) < sup(v(1:i)) (je notte sup(v(1:i)) le sup calculé sur les i premières valeurs)
    i augmente de 1
    Fin de la boucle.

    La valeur de i quand cette boucle s'arrête est le rang de ta marche.

    Limitation: il vaudrait mieux pouvoir commencer à i=4, parce que ça n'a pas tellement de sens de calculer des quartiles avant. Mais ça veux dire qu'on risque de louper la marche, si elle est très tôt. Avec une série du style 1, 2, 23, 25, 21, 24.

Discussions similaires

  1. Besoin d'aide pour des viewer de log
    Par Djobird dans le forum Logging
    Réponses: 3
    Dernier message: 12/03/2010, 10h21
  2. Besoin d'aide pour des requêtes
    Par pikmin dans le forum SQL
    Réponses: 10
    Dernier message: 10/12/2009, 14h33
  3. Besoin d'aide svp [ des notions à expliquer ]
    Par Nabsouf dans le forum Débuter
    Réponses: 1
    Dernier message: 26/06/2009, 12h51
  4. Besoin d'aide pour des jointures de tables
    Par supersmoos dans le forum Requêtes
    Réponses: 4
    Dernier message: 14/12/2006, 15h38
  5. besoin d'aide pour des algos
    Par mathieu77 dans le forum Algorithmes et structures de données
    Réponses: 23
    Dernier message: 08/11/2005, 18h33

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo