Delete indéfiniment et plantage

**laurent1133** · 09/02/2016, 15h57

Bonjour,

Je dois effectuer une épuration de doublons sur une grosse basse (+1,5GO). Pas de problème pour les trouver. Je crais une table temporaire pour les identifier. Lorsque j'utilise ma requette pour l'effacement mon ordi tourne tourne aussi longtemps qu'une valse ! rien ne se passe !

voici la commande :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
delete R
from tmp as R
LEFT OUTER JOIN vi as V ON R.id = V.id
where R.id = V.id and R.coor1 <> V.coor1

(dur dur de se remettre à la prog)

**Artemus24** · 09/02/2016, 17h17

Salut laurent1133.

Nous ne sommes pas des devins.
Il nous faudrait d'une part tes tables et aussi ce que tu nommes des doublons.

@+

**escartefigue** · 10/02/2016, 09h17

Bonjour,

En effet, d'une part, quelques indices seraient judicieux, d'autre part, purger une table très volumineuse par "DELETE" est une très mauvaise solution, et enfin utiliser un prédicat "<>" dans votre filtre, rend votre requête non sargable.

Communiquez
- le DDL de vos tables et index
- le nombre de lignes total de votre table et le nombre estimatif ou la proportion de lignes à purger
- les critères de purge (sous forme de règles de gestion, en français donc)
- votre requete complète

**laurent1133** · 16/02/2016, 15h21

Rebonjour,

Ok dsl du temps de réponse. Alors en fait j'ai un fichier .csv de plus d'1Go ( que j'ai due découper façon guy Georges ) en 8 fichiers de 170 Mo composé de +- 2 170 000 lignes chacun.

j'ai +- 100927 doublons pour par fichiers .csv

Table doublons

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

 id varchar(30), t1 varchar(10), t2 varchar(60), t3 decimal(5,0), t4 varchar(50), t5 varchar(10), coor1 decimal(5,0), coor2 decimal(9,6)

NB : la seule chose qui différencie les doublons sont les colonnes Coor1 & Coor2

La table de donnée est identique !

J'ai structuré ainsi sans optimisation car je ne voulais pas perdre de ligne, ou arrêter le chargement du fichier toutes les trois minutes pour une ligne qui ne correspond pas au format, puis épurer pour reconstruire. (facile en théorie)

Bref mise à par Delete je ne vois pas d'autres solutions Help !

**Artemus24** · 16/02/2016, 17h39

Salut laurent1133.

Envoyé par laurent1133

Alors en fait j'ai un fichier .csv de plus d'1Go ( que j'ai due découper façon guy Georges ) en 8 fichiers de 170 Mo composé de +- 2 170 000 lignes chacun.

Guy Georges est un violeur, donc je ne voie pas trop le rapport avec un découpage en tranche. Si tu m'avais parlé de Ed Gein, dont on s'est inspiré pour faire le film "massacre à la tronçonneuse", j'aurai mieux compris l'allusion.

Tu charges tous tes fichiers ".csv" dans des tables MySql sans rien rejeter.
Puis ensuite, tu fais un delete sur ce que tu ne désires pas obtenir.
Ce n'est pas ce qui est le plus performant comme façon de faire.
De ce fait, je suis d'accord avec Escartefigue. Bon maintenant, il existe plusieurs solutions.

Si dès le départ, tu sais ce que tu veux conserver et ce que tu veux rejeter, le mieux est de le faire au chargement.
Admettons que tu fasses un "load data local infile" en utilisant un "unique index" sur l'une des colonnes.
Et bien sûr, tu as des doublons sur les valeurs de cette colonne.
La solution est soit d'ajouter un "ignore" pour conserver la première occurrence, ou soit ajouter un "replace" pour conserver la dernière occurrence de ce doublon.
Voici un exemple en trois temps. Au premier, je charge la totalité du fichier, sans rien rejeter.
Au deuxième, je le fais avec un "ignore" et au troisième, je le fais avec un "replace". Dans tous les cas, c'est le même fichier que je charge.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
--------------
SET AUTOCOMMIT = 0
--------------
 
--------------
START TRANSACTION
--------------
 
--------------
DROP DATABASE IF EXISTS `base`
--------------
 
--------------
CREATE DATABASE IF NOT EXISTS `base`
        DEFAULT CHARACTER SET `latin1`
        DEFAULT COLLATE       `latin1_general_ci`
--------------
 
--------------
DROP TABLE IF EXISTS test
--------------
 
--------------
CREATE TABLE test (
  `id`             smallint unsigned AUTO_INCREMENT NOT NULL PRIMARY KEY,
  `val`            char(10)                         NOT NULL,
  `lib`            char(10)                         NOT NULL
) ENGINE=InnoDB
  DEFAULT CHARSET=`latin1` COLLATE=`latin1_general_ci`
  ROW_FORMAT=COMPRESSED
--------------
 
--------------
LOAD DATA LOCAL INFILE 'E:\\22.MySql\\40.Load\\Ex_02\\Fichier.txt'
     INTO TABLE `test`
     CHARACTER SET latin1
     FIELDS    TERMINATED BY ';'
     ENCLOSED  BY '"'
     LINES     TERMINATED BY '\r\n'
     IGNORE 0  LINES
     (val, lib)
--------------
 
--------------
select * from test
--------------
 
+----+--------+----------+
| id | val    | lib      |
+----+--------+----------+
|  1 | bleu   | un       |
|  2 | rouge  | deux     |
|  3 | vert   | trois    |
|  4 | jaune  | quatre   |
|  5 | bleu   | cinq     |
|  6 | bleu   | six      |
|  7 | rouge  | sept     |
|  8 | jaune  | huit     |
|  9 | vert   | neuf     |
| 10 | jaune  | dix      |
| 11 | orange | onze     |
| 12 | marron | douze    |
| 13 | bleu   | treize   |
| 14 | bleu   | quatorze |
+----+--------+----------+
--------------
truncate test
--------------
 
--------------
create unique index `idx` on `test` (`val`)
--------------
 
--------------
LOAD DATA LOCAL INFILE 'E:\\22.MySql\\40.Load\\Ex_02\\Fichier.txt'
     IGNORE INTO TABLE `test`
     CHARACTER SET latin1
     FIELDS    TERMINATED BY ';'
     ENCLOSED  BY '"'
     LINES     TERMINATED BY '\r\n'
     IGNORE 0  LINES
     (val, lib)
--------------
 
--------------
select * from test
--------------
 
+----+--------+--------+
| id | val    | lib    |
+----+--------+--------+
|  1 | bleu   | un     |
|  2 | rouge  | deux   |
|  3 | vert   | trois  |
|  4 | jaune  | quatre |
|  5 | orange | onze   |
|  6 | marron | douze  |
+----+--------+--------+
--------------
truncate test
--------------
 
--------------
LOAD DATA LOCAL INFILE 'E:\\22.MySql\\40.Load\\Ex_02\\Fichier.txt'
     REPLACE INTO TABLE `test`
     CHARACTER SET latin1
     FIELDS    TERMINATED BY ';'
     ENCLOSED  BY '"'
     LINES     TERMINATED BY '\r\n'
     IGNORE 0  LINES
     (val, lib)
--------------
 
--------------
select * from test
--------------
 
+----+--------+----------+
| id | val    | lib      |
+----+--------+----------+
|  7 | rouge  | sept     |
|  9 | vert   | neuf     |
| 10 | jaune  | dix      |
| 11 | orange | onze     |
| 12 | marron | douze    |
| 14 | bleu   | quatorze |
+----+--------+----------+
--------------
COMMIT
--------------
 
--------------
SET AUTOCOMMIT = 0
--------------
 
 
Appuyez sur une touche pour continuer...

Dans le cas du "ignore", le doublon n'est même pas chargé. voir numérotation de la colonne 'id'.
Dans le cas du "replace", le nouveau doublon supprime l'ancienne ligne.

Maintenant, c'est à toi de définir le critère du doublon. Ici dans mon exemple, c'est la colonne 'val'.

@+

**laurent1133** · 17/02/2016, 14h28

Bonjour Artemus24,

Ok c'est très clair, merci c'est sympa.

**laurent1133** · 19/02/2016, 10h41

Juste une note, il y a cependant un manque d'options conditionnels pour un choix plus poussé avec cette méthode. Mais comme l'idée était de ne pas utiliser
le Dele te je vais continuer dans le genre.

**Artemus24** · 19/02/2016, 14h32

Salut laurent1133.

Envoyé par laurent1133

il y a cependant un manque d'options conditionnels pour un choix plus poussé avec cette méthode.

L'utilitaire en question est destiné à chargé dans une table, le contenu d'un fichier de type ".csv".
Si tu as besoin de faire des sélection, tu as deux choix :

.) soit tu prépares un fichier avec uniquement ce dont tu as besoin.
La seule chose que tu peux faire, c'est utiliser le paramètre "ignore x" où x est le nombre de lignes à ignorer avant d'effectuer le chargement.

.) soit tu charges dans une tables temporaire, puis ensuite tu fais tes sélections.

Je reconnais que l'on aurait pu améliorer l'utilitaire en introduisant la clause where.

Sinon, que cherches-tu à faire et sur quel critères ?

@+

Delete indéfiniment et plantage [MySQL-5.6]

MySQL

Discussions similaires

Partager

Partager