IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Requêtes MySQL Discussion :

Statistique horaire/journalière sur des millions de lignes


Sujet :

Requêtes MySQL

  1. #1
    Candidat au Club
    Profil pro
    Inscrit en
    Février 2012
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2012
    Messages : 4
    Points : 2
    Points
    2
    Par défaut Statistique horaire/journalière sur des millions de lignes
    Bonjour,

    Je réalise actuellement un système de gestion de données émis pas un grand nombre de capteur.
    Je souhaiterai pouvoir faire « rapidement » des statistiques sur la fréquence d’utilisation des capteurs.
    Par Statistiques j’entends : Être capable de générer un tableau qui classerait par fréquence d’utilisation des adresses (champs addr) émise lors de la dernière heure, puis lors du dernier jour. Pour voir quelles adresses sont le plus souvent sollicité. Le problème pour moi, c’est que c’est un jour, ou une heure « glissante » pour coller au mieux à la réalité en temps réel.
    Voilà le schéma de ma table principale :

    Code SQL : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    CREATE TABLE IF NOT EXISTS `cap_value` (
      `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
      `addr` varchar(32) NOT NULL,
      `date` int(10) unsigned NOT NULL,
      `target_id` int(10) unsigned NOT NULL,
      `from_id` int(10) unsigned NOT NULL,
      PRIMARY KEY (`id`)
    ) ENGINE=MyISAM  DEFAULT CHARSET=latin1 AUTO_INCREMENT=1 ;

    Je reçois en moyenne 2 valeurs par secondes, donc en un jour la table grandi de 170 000 lignes, 10 jours après j’ai donc environs 1.7 millions de lignes, d’où le besoin de trouver un système fiable, rapide et indépendant du nombre de ligne.
    Pour le moment le meilleur moyen que j’ai trouvé est une requête de ce style :

    Code SQL : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    SELECT COUNT(*) AS total, addr
    FROM `cap_value`
    WHERE `date` >=1330270773 /*<----- H-1 ou J-1*/
    GROUP BY addr
    ORDER BY total DESC

    Sur une table de 8 Millions de lignes cette requête dure 4 secondes, sachant que l’application est en php et destiné au "web", le temps est trop long, même avec un petit système de cache j’ai peur que la charge du serveur (qui est plutôt modeste au passage) ne cesse de monter.
    Dans un premier temps, est-ce que vous pensez que mon schéma est correct, et ensuite comment est-ce que vous procéderiez ? Créer une seconde table pour garder que les enregistrements des dernières 24h serait-elle une meilleure approche ?

    Est-ce que la création d'une vue serait une autre alternative ?

    Cordialement,

    Ps : "addr" est composé au maximum de 32 caractères (^[a-z0-9]{2,32}$ exactement) et peux prendre des milliers de valeurs.

  2. #2
    Modérateur

    Avatar de CinePhil
    Homme Profil pro
    Ingénieur d'études en informatique
    Inscrit en
    Août 2006
    Messages
    16 799
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur d'études en informatique
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2006
    Messages : 16 799
    Points : 34 031
    Points
    34 031
    Billets dans le blog
    14
    Par défaut
    La première chose à examiner quand on a un problème de performance : les index.

    La colonne addr est-elle indexée ?
    Philippe Leménager. Ingénieur d'étude à l'École Nationale Supérieure de Formation de l'Enseignement Agricole. Autoentrepreneur.
    Mon ancien blog sur la conception des BDD, le langage SQL, le PHP... et mon nouveau blog sur les mêmes sujets.
    « Ce que l'on conçoit bien s'énonce clairement, et les mots pour le dire arrivent aisément ». (Nicolas Boileau)
    À la maison comme au bureau, j'utilise la suite Linux Mageïa !

  3. #3
    Membre expert
    Avatar de Maljuna Kris
    Homme Profil pro
    Retraité
    Inscrit en
    Novembre 2005
    Messages
    2 613
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 72
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Retraité
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Novembre 2005
    Messages : 2 613
    Points : 3 950
    Points
    3 950
    Par défaut
    Saluton,
    En toute première analyse je dirais que j'espère que la colonne addr est indexée.
    Citation Envoyé par Juseba
    Créer une seconde table pour garder que les enregistrements des dernières 24h serait-elle une meilleure approche ?
    Le problème consisterait alors à choisir la procédure et/ou la fréquence pour purger cette table vers la table définitive. Un trigger horaire ?
    Kie lumo eksistas ankaŭ ombro troviĝas. L.L. Zamenhof
    articles : Comment émuler un tableau croisé [quasi] dynamique
    et : Une énigme mathématique résolue avec MySQL
    recommande l'utilisation de PDO (PHP5 Data Objects)

  4. #4
    Candidat au Club
    Profil pro
    Inscrit en
    Février 2012
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2012
    Messages : 4
    Points : 2
    Points
    2
    Par défaut
    Bonjour, merci pour vos réponses.

    Coté index j'ai fait ceci :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    Key_name 	Seq_in_index 	Column_name	Index_type
    PRIMARY		1		id		BTREE
    addr		1		addr		BTREE
    Citation Envoyé par Maljuna Kris
    Le problème consisterait alors à choisir la procédure et/ou la fréquence pour purger cette table vers la table définitive. Un trigger horaire ?
    Avant chaque requête pour générer les stats je ferais un petit "DELETE .. WHERE date <= time()-1j" ? le problème étant de conserver "l'heure ou le jour glissant" donc impossible de fonctionner avec un cron qui irait toutes les heures supprimer les vieux enregistrements. Au mieux je peux me permettre un décalage de 10 minutes grand maximum.

  5. #5
    Membre expert
    Avatar de ericd69
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Avril 2011
    Messages
    1 919
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Avril 2011
    Messages : 1 919
    Points : 3 295
    Points
    3 295
    Billets dans le blog
    1
    Par défaut
    ou une procédure stockée appelée en cron...

    en tout cas, comme on doit atteindre les limites de ce que peut mysql, un partitionnement vertical...

    tu peux le faire 1 fois par jours ça suffit

    par contre un index sur addr ne partitionnant pas de par ce que fait sa requête... sur 8 millions de tuples et plus, ça n'apportera rien...

    à moins que d'autres requêtes ne soit prévue et cherchant une adresse précise...

    de toute façon un explain sur la requête te confirmera son utilisation
    soyons pensez à mettre quand votre problème est résolu ou à utiliser pour les réponses pertinentes...
    ne posez pas de problématique soi-disant simplifiée sur des problèmes que vous n'êtes pas capable de résoudre par respect pour ceux qui planchent dessus... sinon: et à utiliser pour insérer votre code...

  6. #6
    Expert confirmé
    Profil pro
    Inscrit en
    Août 2008
    Messages
    2 947
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2008
    Messages : 2 947
    Points : 5 846
    Points
    5 846
    Par défaut
    Il faudrait un index sur la date.
    Avant chaque requête pour générer les stats je ferais un petit "DELETE .. WHERE date <= time()-1j" ?
    Ben avant chaque requête ça ne sera pas intéressant, mais tu peux historiser la table chaque nuit par exemple.

  7. #7
    Membre confirmé

    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2006
    Messages
    247
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Octobre 2006
    Messages : 247
    Points : 473
    Points
    473
    Billets dans le blog
    1
    Par défaut
    Je vais peut etre me faire taper dessus :

    a quoi sert ton id ?

  8. #8
    Membre expert
    Avatar de ericd69
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Avril 2011
    Messages
    1 919
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Avril 2011
    Messages : 1 919
    Points : 3 295
    Points
    3 295
    Billets dans le blog
    1
    Par défaut
    c'est l'index automatique sur les clés primaires de toutes les table

    tu as jamais fait attention avant?
    soyons pensez à mettre quand votre problème est résolu ou à utiliser pour les réponses pertinentes...
    ne posez pas de problématique soi-disant simplifiée sur des problèmes que vous n'êtes pas capable de résoudre par respect pour ceux qui planchent dessus... sinon: et à utiliser pour insérer votre code...

  9. #9
    Membre confirmé

    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2006
    Messages
    247
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Octobre 2006
    Messages : 247
    Points : 473
    Points
    473
    Billets dans le blog
    1
    Par défaut
    Je ne connais pas les specificités de mysql.

    Est ce obligatoire d'avoir une cle primaire ?

    et si non -c'etait le sens de ma question - a quoi sert elle ici ?

  10. #10
    Membre expert
    Avatar de ericd69
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Avril 2011
    Messages
    1 919
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Avril 2011
    Messages : 1 919
    Points : 3 295
    Points
    3 295
    Billets dans le blog
    1
    Par défaut
    la clé primaire est une valeur unique associée à chaque ligne d'une table (l'identifiant de la ligne)

    elle va donc servir dans les recherches ou les fonctions pour déterminer le nombre de lignes dans la table

    c'est généralement un compteur auto incrémenté mais on peut utiliser des types non numériques (hyper déconseillé)

    elle est auto indexée pour optimiser un certain nombre d'opérations
    soyons pensez à mettre quand votre problème est résolu ou à utiliser pour les réponses pertinentes...
    ne posez pas de problématique soi-disant simplifiée sur des problèmes que vous n'êtes pas capable de résoudre par respect pour ceux qui planchent dessus... sinon: et à utiliser pour insérer votre code...

  11. #11
    Candidat au Club
    Profil pro
    Inscrit en
    Février 2012
    Messages
    4
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2012
    Messages : 4
    Points : 2
    Points
    2
    Par défaut
    Bonjour,

    L'id ici me sert a faire des suppressions ciblé de telle ou telle ligne, voir certaines plages, ou dans certains cas plus rare la lecture de certaines lignes.

    Merci pour vos réponses, je vais donc partir sur un cron journalier + l'indexation de "date", c'est la seule solution qui me permet de faire des stats sur une heure glissante à priori :/

    Bonne journée

Discussions similaires

  1. [SSIS]Doublons sur des millions de ligne
    Par MeriConsult dans le forum SSIS
    Réponses: 5
    Dernier message: 19/12/2008, 08h04
  2. Réponses: 6
    Dernier message: 01/04/2008, 18h47
  3. Réponses: 4
    Dernier message: 24/02/2008, 21h16
  4. [SELECT sur 16 millions de lignes] délai très grand
    Par localhost dans le forum Requêtes
    Réponses: 6
    Dernier message: 22/11/2004, 17h04
  5. Zoom sur des vecteurs ou lignes
    Par mat.M dans le forum Algorithmes et structures de données
    Réponses: 7
    Dernier message: 25/11/2002, 10h40

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo