Gestion des doublons avec une precision microsecondes

**Zetsuk0** · 28/05/2019, 12h35

Hello,
Je bloque depuis quelques temps sur un problème qui me semble venir de Django.
Pour faire court, je travail dans une société de bourse et tout les jours je reçois tous les ordres passés de la veille sous format CSV généré par un logiciel de passage d'ordre.
Sauf que le logiciel de passage d'ordre émet parfois des doublons qui ne sont différenciable que par leurs datetimes à la microseconde près.
Mon code se présente comme suit :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
 
for i, l in enumerate(lines[1:], 2):
 
            attrs = l.split(";")
            data = dict(zip(CSV_HEADERS, attrs))
 
            unique_ref = data["Transaction Reference Number"]
            arm_line, c = ArmLine.objects.get_or_create(transaction_reference_number = unique_ref)
 
            logger.debug("Parsing line no.%s, creation: %s" % (i, c))
 
            arm_line.errors = ""
            arm_line.status = 0
            arm_line.index = i
            arm_line.raw_line = l
            arm_line.report = self.report
 
            arm_line.import_dict(data)
            arm_line.full_clean()
            arm_line.save()
 
            # remove dups
            if self.filename[9:12] == 'SOM':
 
                dups = ArmLine.objects.filter(report = self.report,
                                          side = arm_line.side,
                                          quantity = arm_line.quantity,
                                          price = arm_line.price,
                                          security_id = arm_line.security_id,
                                          trading_date_time = arm_line.trading_date_time)
		dups = dups.exclude(transaction_reference_number = arm_line.transaction_reference_number)
                if dups:
                    logger.warn("Removing duplicate %s" % dups)
                dups.delete()
 
        # update indexes, dups messed them up
        for i, arm_line in enumerate(self.report.lines.all().order_by('index'), 2):
            arm_line.index = i
            arm_line.save()
 
 
        # update files on disk
        self.report.write()

dups étant les doublons, la suppression fonctionne bien sauf que problème : le champ "trading_date_time" étant l'heure à laquelle l'ordre a été passé à la microseconde près n'est pris en compte que jusqu'a la seconde près et par conséquent, des ordres qui ne sont pas sensé être doublon sont supprimé.
Je sais pas si j'ai été claire dans mon explication, j'en apporterais d'avantage si besoin.
C'est un problème qui devient de plus en plus urgent car je suis actuellement obligé de traiter les doublons à la main ce qui me prends énormément de temps.
Je précise que je suis en Python 2.7.9 et en Django 1.9.13.

Merci d'avance pour votre aide.

**wiztricks** · 28/05/2019, 15h27

Salut,

Envoyé par Zetsuk0

le champ "trading_date_time" étant l'heure à laquelle l'ordre a été passé à la microseconde près n'est pris en compte que jusqu'a la seconde près et par conséquent, des ordres qui ne sont pas sensé être doublon sont supprimé.

Déjà, il faut vous assurer que l'information existe dans le CSV, puis qu'elle est bien récupérée dans arm_line et qu'elle a été correctement stockée en base... Car vous passez d'une chaîne de caractères a des nombres flottants et des conversions via des formats pas forcément ad hoc à chaque étape.
Puis une fois que vous aurez trouvé où çà pêche... il faudra éventuellement comprendre pourquoi.

- W

**Zetsuk0** · 28/05/2019, 15h44

Envoyé par wiztricks

Déjà, il faut vous assurer que l'information existe dans le CSV, puis qu'elle est bien récupérée dans arm_line et qu'elle a été correctement stockée en base... Car vous passez d'une chaîne de caractères a des nombres flottants et des conversions via des formats pas forcément ad hoc à chaque étape.
Puis une fois que vous aurez trouvé où çà pêche... il faudra éventuellement comprendre pourquoi.

- W

Tout d'abord merci pour t'a réponse rapide.

Les informations dans le CSV existent bien, en voici un exemple : Nom : Ordre.PNG
Affichages : 202
Taille : 7,2 Ko

Elles sont ensuite bien stocké dans arm_line ainsi que dans la base de donnée.
J'ai testé un affichage du trading_date_time de arm_line lors de l'import du CSV et les microsecondes y sont bien affiché.

PS : Je débute dans l'univers Python/Django

**wiztricks** · 29/05/2019, 08h02

Salut,

Si les informations sont là, soit vous dites : "filter" ne retourne pas les mêmes lignes que son SELECT équivalent (et vous avez trouvé un bug), soit le SELECT retourne la même chose que filter (et ce n'est plus un soucis Django mais dans le modèle de données ou le SGDB).

- W

**Zetsuk0** · 29/05/2019, 15h44

Ok je viens d'essayer un SELECT après l'insertion des données, chose que je ne faisait pas car j'affichais uniquement les dates de l'objet directement lors de l'insertion (pas taper

)

Nom : datetime line.PNG
Affichages : 194
Taille : 2,3 Ko

donc les microsecondes ne sont pas stocké dans la base SQL.
Mais du coup je tombe des nues car l'attribue possède bien les microsecondes à l'insertion de la BDD et le champ trading_date_time est bien en datetime Nom : desc datetime.PNG
Affichages : 198
Taille : 1,3 Ko

Nom : desc datetime.PNG
Affichages : 198
Taille : 1,3 Ko

Je suis sous mysql 14.14

Il y a t-il quelque chose que j'ai omis ?

**wiztricks** · 29/05/2019, 17h07

Envoyé par Zetsuk0

Il y a t-il quelque chose que j'ai omis ?

C'est tout bon.
Maintenant, il faut savoir si c'est Django qui ne stocke pas les microsecondes parce qu'il croit que le SGDB ne le supporte pas ou si c'est un soucis côté SGDB (qui les jette).

Et là, il faut chercher sur Internet des problèmes semblables et essayer de comprendre s'ils s'appliquent ou pas.

- W

Gestion des doublons avec une precision microsecondes [Python 2.X]

Django Python

Vue hybride

Discussions similaires

Partager

Partager