IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

statistiques sur des événements


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Rédacteur

    Avatar de ram-0000
    Homme Profil pro
    Consultant en sécurité
    Inscrit en
    Mai 2007
    Messages
    11 517
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 62
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Consultant en sécurité
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2007
    Messages : 11 517
    Par défaut statistiques sur des événements
    Bonjour,

    Je suis en train de faire des statistiques sur le nombre d'occurences d'événements (peut importe ces évenements, c'est leur volumétrie par intervalle de temps qui m'intéresse).
    Avec ces statistiques, je voudrais définir une notion de seuil mini et seuil maxi et lorsque ces seuils sont franchis, une alarme est générés (peu importe pour l'instant le mode de génération de cette alarme).

    Première question, est ce que je dois calculer sur la plus grande période possible (et donc conserver un historique qui peut être important) ou bien est ce qu'une période glissante peut suffir (genre les 100 dernière valeurs). Quelles sont les impacts sur le résultat. Est ce que par exemple, travailler que sur les 10 dernière valeurs a un impact significatif en termes de précision et comment mesurer cet impact.

    Autre question, j'ai vu qu'il existait au moins 4 moyennes différentes :
    • la moyenne arithmétique
    • la moyenne géométrique
    • la moyenne harmonique
    • la moyenne quadratique

    Je possède les formules de calcul de ces différentes moyenne mais par contre, je ne voie pas concrêtement dans quel cas on utilise cette moyenne plutôt que une autre. Appliqué à mon problème, quelle moyenne est la plus indiquée ?

    3eme question, j'ai trouvé des choses sur l'écart type mais encore une fois, je trouve 3 écarts type différents avec des formules différentes :
    • l'écart type
    • l'écart type empirique
    • l'écart type empirique corrigé

    Même question, concrêtement dans quel cas on utilise 1 écart type plutôt qu'un autre. Pour mon cas, quel écart type utiliser ?

    Et enfin, voyez vous d'autres indicateurs ou une autre approche qui me permettraient de calculer de manière automatique et glissante ces seuils.

    Merci pour toutes vos réponses, idées et suggestions
    Raymond
    Vous souhaitez participer à la rubrique Réseaux ? Contactez-moi

    Cafuro Cafuro est un outil SNMP dont le but est d'aider les administrateurs système et réseau à configurer leurs équipements SNMP réseau.
    e-verbe Un logiciel de conjugaison des verbes de la langue française.

    Ma page personnelle sur DVP
    .

  2. #2
    Expert confirmé Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Par défaut
    peut importe ces évenements
    C'est le cas d'espèce qui permet de définir le seuil d'alarme.

    Par exemple, si on a des capteurs de températures, on pourra envisager différentes attitudes:
    - un dépassement notable d'une seule mesure sur un capteur peut déclencher l'alarme,
    - l'alarme ne sera déclenchée que si une série d'autres mesures sur l'ensemble des capteurs confirme le premier dépassement.

    C'est aussi du système particulier dont dépendra ce qu'on entend par "confirmation" :
    - des mesures semblables ?
    - un écart moyen ou un écart type sue une série de mesure ?
    - sur quelle période ou sur combien de mesures ?
    - une correlation avec un autre capteur ?

  3. #3
    Expert confirmé

    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    10 610
    Détails du profil
    Informations personnelles :
    Âge : 67
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 10 610
    Billets dans le blog
    2
    Par défaut
    alors tout dépend où tu en es dans ton "programme" :

    • si c'est pour établir la statistique, tu n'as pas le choix que de tout étudier (l'ensemble des événements) sur l'ensemble de la période.

      A partir de là tu pourras éventuellement déduire des seuils

    • Et là, dans la 2ième partie, tu pourras stocker uniquement pour la période glissante.


    C'est ce que j'ai fait pour des alertes d'orages en fonction des éclairs. Par contre, moi ce n'était pas un seuil statistique mais fourni par l'utilisateur.


    Exemple :

    début d'alerte : 2 éclairs dans les 10 dernières minutes dans une zone de 25 kms autour du point (de la région) d'intérêt.

    fin d'alerte : alerte déjà déclenchée ET 1 seul éclair dans les 10 dernières minutes dans une zone de 25 kms autour du point (de la région) d'intérêt.

    Ce qui nécessite de stocker des pointeurs sur les données valides dans les 10 dernières minutes, et de faire glisser la période et de mettre à jour les pointeurs..

  4. #4
    Rédacteur

    Avatar de ram-0000
    Homme Profil pro
    Consultant en sécurité
    Inscrit en
    Mai 2007
    Messages
    11 517
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 62
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Consultant en sécurité
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2007
    Messages : 11 517
    Par défaut
    Dans mon programme, je n'en suis nul part, pour l'instant, j'attaque par le bon bout c'est à dire réflexion intense avant codage fou

    En ce qui concerne mes données, je reçoit les événement au fil de l'eau. La volumétrie est quelque chose comme 100000 événement par jour.

    Encore une fois, je ne m'intéresse pas au contenu de ces événements (pas encore du moins) mais plutôt à leur volumétrie et à la variation de cette volumétrie. La réflexion/intuition que j'ai est que la variation de volumétrie est une information aussi importante que leur contenu (dans mon cas).

    Je sais calculer la volumétrie sur la dernière minute (ou dernière heure ou encore dernière journée) je sais les conserver mais je souhaite savoir si je peux ne conserver que les 100 (par exemple) dernière mesures glissantes et si les seuils que je pourrais calculer et faire évoluer automatiquement seront "crédibles" et représentatifs.

    J'ai l'historique sur les quelques derniers mois, donc je sais valider mes/vos idées.
    Raymond
    Vous souhaitez participer à la rubrique Réseaux ? Contactez-moi

    Cafuro Cafuro est un outil SNMP dont le but est d'aider les administrateurs système et réseau à configurer leurs équipements SNMP réseau.
    e-verbe Un logiciel de conjugaison des verbes de la langue française.

    Ma page personnelle sur DVP
    .

  5. #5
    Expert confirmé

    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    10 610
    Détails du profil
    Informations personnelles :
    Âge : 67
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 10 610
    Billets dans le blog
    2
    Par défaut
    à ce compte-là, je ne sais pas quel est le mieux :

    • stocker les événements
    • stocker leur nombre (en ayant une idée du pas de temps min)



    stocker les événements peut être gros, mais nécessaire si les pas de temps sont très varaibles ou l'accès aux données nécessaire

    stocker les nombres peut être aussi très gros (suivant la taille relative du pas de temps et de la période), mais plus simple


    Ensuite, la moyenne arithmétique est parfaitement correcte, à moins que tu n'es des informations particulières "déplaçant" la moyenne.

    Quant à l'écart-type, le brut est souvent simple, à moins que tu n'aies une idée à priori de la distribution (gaussienne, normale, ..)


    Pour ce qui est de la validité statistique entre glissant ou non, aucune idée (pas assez statisticien pour ça)

    Mais je crois que d'abord tiu devrais nous (et te) re-préciser les buts :

    Pourquoi faire exactement ?
    Glissant ou non ?

  6. #6
    Rédacteur

    Avatar de ram-0000
    Homme Profil pro
    Consultant en sécurité
    Inscrit en
    Mai 2007
    Messages
    11 517
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 62
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Consultant en sécurité
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2007
    Messages : 11 517
    Par défaut
    Citation Envoyé par souviron34 Voir le message
    Mais je crois que d'abord tiu devrais nous (et te) re-préciser les buts :

    Pourquoi faire exactement ?
    Glissant ou non ?
    Je reçoit des événements au fil de l'eau à une fréquence variable qui fait en moyenne 100000 événements par jour mais cela peut varier entre 0 et quelques dizaines par seconde. Ces événements sont générés par de l'activité sur le réseau.

    Le but en m'intéressant à la volumétrie est de fixer des seuils mini et maxi. Si ces seuils sont franchis c'est le signe d'un problème sur le réseau (par exemple, le franchissement du seuil mini peut être la conséquence de l'arrêt d'un équipement, le franchissement du seuil maxi peut être la conséquence d'une activité "suspecte" sur le réseau) et donc une alerte doit être levée.

    Bien sûr cette volumétrie va évoluer en fonction de ces événements que je veux détecter mais aussi en fonction de l'évolution du nombre d'équipements sur le réseau (un équipement supplémentaire va générer des événements supplémentaires et donc faire monter la moyenne) et je ne voudrais pas avoir à recalculer mes seuils manuellement pour cela, je voudrais que le calcul se fasse automatiquement et que les seuils s'adaptent en temps réel. Une autre cause pourrait être les week end, moins d'activité donc moins d'événements donc il faut que les seuils s'adaptent.

    Je suis bien concsient que quelquesoit le système, cela ne sera jamais parfait. Il y aura des faux positifs (une alarme alors qu'il n'y a rien de spécial mais les seuils ne se sont pas encore adaptés) ou des faux négatifs (c'est un peu plus grave, c'est la non détection d'un pic ou creux alors que les seuils ne sont pas encore adaptés).

    Je ne peux pas me permettre de garder en mémoire l'historique de quelques mois pour faire mes calculs c'est pourquoi j'avais pensé à des calculs sur des périodes glissantes.

    D'autre part, je ne suis pas statisticien et j'ai découvert qu'il y avait plein d'outils mathématiques à ma disposition mais que certains ne doivent pas être utilisés dans certains cas alors que d'autres sont plus indiqués.

    D'où mon appel à des compétences un peu plus statisticiennes que moi
    Raymond
    Vous souhaitez participer à la rubrique Réseaux ? Contactez-moi

    Cafuro Cafuro est un outil SNMP dont le but est d'aider les administrateurs système et réseau à configurer leurs équipements SNMP réseau.
    e-verbe Un logiciel de conjugaison des verbes de la langue française.

    Ma page personnelle sur DVP
    .

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 1
    Dernier message: 18/10/2010, 11h07
  2. Etablir des statistiques sur des données
    Par tidav112 dans le forum Requêtes et SQL.
    Réponses: 2
    Dernier message: 24/02/2009, 16h06
  3. Réponses: 1
    Dernier message: 15/11/2008, 19h19
  4. Statistiques sur des Etats
    Par Gerard lambert dans le forum IHM
    Réponses: 7
    Dernier message: 27/07/2006, 08h06
  5. Statistiques sur des tables
    Par nuke_y dans le forum Oracle
    Réponses: 2
    Dernier message: 24/04/2006, 14h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo