IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

MAX DATE optimisation


Sujet :

Python

  1. #1
    Membre averti
    Homme Profil pro
    Pilote production
    Inscrit en
    Janvier 2020
    Messages
    13
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Pilote production

    Informations forums :
    Inscription : Janvier 2020
    Messages : 13
    Par défaut MAX DATE optimisation
    Bonjour,

    Dans mon environnement professionnel nous venons de passer sous DATABRICKS et je dois donc apprendre à utiliser python.
    Je cherche à obtenir l'antériorité d'un stock de produit en calculant le délai entre la date du stock et la date du jour. Ca, je sais faire.

    Ma table se met à jour quotidiennement en APPEND avec chaque jour une nouvelle date de référence. J'ai donc environ 300 000 lignes par jour.
    Je souhaite extraire à chaque fois la dernière "version" de mon stock.
    Voici comment j'ai procédé :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    date_max = spark.sql("""select max(date1) `date1` from Matable""")
    date_max = list(date_max.select('date').toPandas()['date'])
    Ca fonctionne et je peux utiliser date_max dans la suite du code :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    stock = spark.table("table") .select ("date1" , "date2", "etc", "etc", (weekofyear("date2")).alias("NUM_week") )\
                                           .filter (col("date1") .isin (date_max))
    MAIS j'aimerais pouvoir éviter de passer par date_max et le faire directement dans le .filter().
    J'ai essayé d'utiliser les fonctions max() avec des (), des []. Ca ne fonctionne pas.
    J'ai bien cherché sur internet, mais rien trouvé de probant.

    De même, à la place de passer par la liste de pandas, je sais qu'on peux également utiliser collect().
    Là encore, ça ne fonctionne pas.
    J'imagine que c'est un problème de format des données.

    Je sais faire ça en SQL, néanmoins, je ne progresserai pas en python sans comprendre pourquoi ça plante.

    Merci d'avance pour vos explications.

  2. #2
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 801
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 801
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par Rehoc59 Voir le message
    et je dois donc apprendre à utiliser python.
    Si tu fais ça par contrainte et non par envie, c'est dommage...

    Citation Envoyé par Rehoc59 Voir le message
    Voici comment j'ai procédé :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    date_max = spark.sql("""select max(date1) `date1` from Matable""")
    date_max = list(date_max.select('date').toPandas()['date'])
    Donc tu remplaces la première variable "date_max" par un calcul issu de ce même "date_max". Ok ce n'est pas interdit mais alors pourquoi ne pas tout faire en une seule opération?
    Je veux dire que si tu écris toto=xxx() puis toto=yyy(toto) tu peux alors écrire directement toto=yyy(xxx()). Et accessoirement les triples quotes ne sont pas utiles ici.
    => date_max = list(spark.sql("select max(date1) `date1` from Matable").select('date').toPandas()['date']).

    Citation Envoyé par Rehoc59 Voir le message
    Ca fonctionne et je peux utiliser date_max dans la suite du code :

    stock = spark.table("table").select ("date1", "date2", "etc", "etc", (weekofyear("date2")).alias("NUM_week")).filter(col("date1").isin(date_max))MAIS j'aimerais pouvoir éviter de passer par date_max et le faire directement dans le .filter().
    J'ai essayé d'utiliser les fonctions max() avec des (), des []. Ca ne fonctionne pas.
    J'ai bien cherché sur internet, mais rien trouvé de probant.
    Rien de probant parce que c'est un truc assez basique, qui fait partie de tous les langages structurés, et qui consiste à utiliser le résultat d'une fonction comme paramètre d'une autre, exactement comme mon exemple toto=yyy(xxx()). Te suffit de remplacer "date_max" dans l'expression par la fonction qui a donné ce "date_max"
    => stock = spark.table("table").select("date1", "date2", "etc", "etc", (weekofyear("date2")).alias("NUM_week")).filter(col("date1").isin(list(spark.sql("select max(date1) `date1` from Matable").select('date').toPandas()['date']))).
    Ah effectivement ça pique les yeux. Mais rien ne t'interdit d'écrire plus détaillé...
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    stock = spark.table("table").select(
    	"date1",
    	"date2",
    	"etc",
    	"etc",
    	(weekofyear("date2")).alias("NUM_week"),
    ).filter(col("date1").isin(list(spark.sql("select max(date1) `date1` from Matable").select('date').toPandas()['date'])))

    Citation Envoyé par Rehoc59 Voir le message
    Je sais faire ça en SQL, néanmoins, je ne progresserai pas en python sans comprendre pourquoi ça plante.
    Si tu peux le faire en SQL alors surtout n'hésite pas. Python est un super langage mais il n'est super que parce qu'il est moyen. Il peut tout faire, mais le fait très moyennement (Python meilleur nulle-part, excellent partout). S'il existe un outil annexe qui fait le job, alors fais-le faire par cet outil et pas par Python. Tu gagneras en clarté et en efficacité.
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  3. #3
    Membre averti
    Homme Profil pro
    Pilote production
    Inscrit en
    Janvier 2020
    Messages
    13
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Pilote production

    Informations forums :
    Inscription : Janvier 2020
    Messages : 13
    Par défaut
    Bonjour,

    Merci pour la réponse détaillée.
    J'apprends python par plaisir et non par pure obligation.
    J'ai fait la même chose avec SQL depuis SAS.

    Personne ne m'oblige à trainer sur les forums pour chercher des solutions
    Comme je l'ai dit, j'aurais pu faire tout ça en SQL, mais où serait le fun ? ^^

    En fait avec cette synaxe :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
     stock = spark.table("table").select("date1", "date2", "etc", "etc", (weekofyear("date2")).alias("NUM_week")).filter(col("date1").isin(list(spark.sql("select max(date1) `date1` from Matable").select('date').toPandas()['date'])))
    , tu fonctionnes avec le principe de la requête imbriquée et ça me parle bien.

    Ma question était plutôt de savoir si max(date1) est transposable en python sans passer par la fonction date_max comme par exemple :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    .filter (col("date1") == max("date1"))
    voir même directement dans le
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
     .select("numero", max(date1)) .groupBy ("numero")

  4. #4
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 801
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 801
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Rehoc59 Voir le message
    Ma question était plutôt de savoir si max(date1) est transposable en python
    Tu veux dire remplacer la requête spark.sql("select max(date1) from Matable") par une instruction Python qui fait la même chose?
    Oui et non. Tu sembles à l'aise en SQL donc tu as bien conscience que pour calculer le max(date), SQL récupère toutes les dates de la colonne puis en extait le max.
    Donc Python oui peut faire la même chose. Un truc comme max(spak.sql("select date1 from Matable").select('date').toPandas()['date']) (je connais pas spark donc je suis parti de ta première syntaxe pour créer celle-là qui dans mon esprit récupère toutes les dates via SQL pour en extraire la max via Python.

    Mais encore une fois, Python est un super langage uniquement parce que ses utilisateurs savent lui faire déléguer quand c'est nécessaire. Récupérer toutes les dates pour en extraire le max c'est consommer inutilement de la ram et du temps CPU là où SQL fait la même chose en plus rapide (Python c'est de l'interprété, SQL c'est du compilé).
    Si tu veux du fun, commence par te faire la main sur des listes simples qu'on peut manipuler via une syntaxe appelée "liste en intension" qui déjà permet de se faire plaisir à peu de frais
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    >>> lll=list(range(1, 11))
    >>> lll
    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    >>> [x**2 for x in lll]
    [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
    >>> [x**3 for x in lll if x%2 != 0]
    [1, 27, 125, 343, 729]
    >>> [(x, y) for x in lll for y in lll if x%2 != 0 and y%2 == 0]
    [(1, 2), (1, 4), (1, 6), (1, 8), (1, 10), (3, 2), (3, 4), (3, 6), (3, 8), (3, 10), (5, 2), (5, 4), (5, 6), (5, 8), (5, 10), (7, 2), (7, 4), (7, 6), (7, 8), (7, 10), (9, 2), (9, 4), (9, 6), (9, 8), (9, 10)]
    >>> sum(x**4 for x in lll)
    25333
    >>> max((x + 1/y) for x in lll for y in lll if x%2 != 0 and y%2 == 0)
    9.5
    >>>
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  5. #5
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 681
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 681
    Par défaut
    Salut,

    Citation Envoyé par Rehoc59 Voir le message
    Ma question était plutôt de savoir si max(date1) est transposable en python sans passer par la fonction date_max
    Certes mais c'est plus un sujet "pandas" qu'un sujet de programmation Python.
    note: et à priori, il est préférable de maîtriser un peu Python avant de se lancer dans pandas.

    Et comme pour toutes les questions, chercher un peu sur Internet permet souvent de trouver des pistes comme celle-ci.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  6. #6
    Membre averti
    Homme Profil pro
    Pilote production
    Inscrit en
    Janvier 2020
    Messages
    13
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Pilote production

    Informations forums :
    Inscription : Janvier 2020
    Messages : 13
    Par défaut
    Bonjour,

    Je me rends compte que je tente de faire du SQL en python, alors que SQL fait très bien du SQL tout seul.
    Mais bon, on me donne un nouveau jouet, alors je joue

    Pour pandas, je n'ai pas encore vraiment commencé.
    J'ai bien conscience qu'on trouve des pistes sur internet, ce bout de code vient d'ailleurs de là :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    list(date_max.select('date').toPandas()['date'])
    Comme précisé, le bout de requête fonctionne, c'était plus de la curiosité.

    Je vous remercie pour vos réponses.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. problème max(date) et champs non correspondant
    Par sorenson dans le forum Requêtes
    Réponses: 3
    Dernier message: 07/04/2007, 14h01
  2. Problème de max (date)
    Par valauga dans le forum Deski
    Réponses: 2
    Dernier message: 04/04/2007, 08h29
  3. [SQL2005] group by et max(date)
    Par BOUBOU81 dans le forum MS SQL Server
    Réponses: 4
    Dernier message: 11/12/2006, 16h54
  4. Select Avec Max(date)
    Par Poisson59 dans le forum MS SQL Server
    Réponses: 5
    Dernier message: 24/08/2006, 17h26
  5. [VB6]Requete sql access:max (date and time)
    Par enibris dans le forum VB 6 et antérieur
    Réponses: 9
    Dernier message: 05/06/2006, 09h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo