DBI: CSV - Accélérer les requêtes

**kast_or** · 05/06/2008, 12h57

Bonjour bonjour.
Voici mon problème :

Je bosse sur un fichier csv de plusieurs millier de lignes.
J'ai importé ce fichier dans mon script de la manière suivante

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
my $dbh = DBI->connect("DBI:CSV:f_dir=D:/datamigration/;csv_eol=\n;csv_sep_char=\\;");
$dbh->{'csv_tables'}->{'producten'} = { 'file' => 'producten.csv'};

Le problème est que la moindre requête du genre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT * FROM producten WHERE id='x'

prend tout de suite 2 secondes, ce qui est beaucoup trop dans mes conditions sachant qu'il va être exécuté plusieurs dizaines de milliers de fois...

Je voudrai donc savoir comment travaille DBI, s'il s'appuie sur des tables de hashage ou truc du genre, et donc savoir comment lui spécifier l'identifiant de la table (qu'il faudrait indexer...)
Ou suis-je obligé de me créer une énorme table de hashage en parsant le fichier ?

Merci beaucoup d'avance

**Jasmine80** · 05/06/2008, 14h20

Quand je voulais créer un index avec le module DBI, je faisais :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
        # crée index
        my $sql3 = "ALTER TABLE $Table ADD INDEX ( `id`);";
        my $sth3 = $DBconnect->prepare($sql3) or print "prepare error\n";
        $sth3->execute or die "Could not execute SQL3 statement ... maybe invalid?";

Je ne travaillais pas sur un fichier csv mais sur une DB MySQL. Apparemment, tu utilises des requêtes SQL pour manipuler ton fichier csv de départ, cela pourrait donc fonctionner dans ton cas.

Voici le fonctionnement de DBI expliqué en détails, je post le lien ici car apparemment ce n'est pas un forum concurrent mais un site fournissant des explications très utiles (je propose d'ailleurs qu'il soit ajouté dans le FAQ décrivant le module DBI, à même titre que le lien vers le CPAN).
http://www.developer.com/db/article.php/10920_2184681_1

**kast_or** · 05/06/2008, 14h36

Au final je me suis résigné à créer ma propre table de hashage :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
#!/usr/local/bin/perl
 
# use strict;
use warnings;
use DBI;
use Text::xSV;
 
#Start reading of the csv file
my $producten = new Text::xSV;
$producten->set_sep(";");
$producten->open_file("D:/datamigration/producten.csv");
$producten->read_header();
# Make the headers case insensitive
foreach my $field ($producten->get_fields)
{
	if (lc($field) ne $field) {
		$producten->alias($field, lc($field));
	}
}
my %products=();
while ($producten->get_row())
{
	my ( $Id, $kleurtitel, $maattitel, $Productsamenstelling, $Extrainformatie, $uitleveringdoor, $Voucher,	$Garantieduur, $Methandtekening, $ISBN, $locatienummer, $BriefcodeFAS, $Code_product_postlevering_id ) = $producten->extract(qw(Id kleurtitel maattitel Productsamenstelling Extrainformatie uitleveringdoor Voucher Garantieduur Methandtekening ISBN locatienummer BriefcodeFAS Code_product_postlevering_id ));
	my %attributs=("kleurtitel" => $kleurtitel , "maattitel" => $maattitel , "Productsamenstelling" => $Productsamenstelling , "Extrainformatie" => $Extrainformatie , 
				"uitleveringdoor" => $uitleveringdoor , "Voucher" => $Voucher , "Garantieduur" => $Garantieduur , "Methandtekening" => $Methandtekening , "ISBN" => $ISBN ,
				"locatienummer" => $locatienummer , "BriefcodeFAS" => $BriefcodeFAS , "Code_product_postlevering_id" => $Code_product_postlevering_id );
	$products{$Id} = [%attributs];
}
print "Finished to create the products hash table\n";
 
%attributs = @{$products{"884"}};
print $attributs{"uitleveringdoor"};

L'accès à partir de cette table est immédiat

**kast_or** · 05/06/2008, 14h41

Pour info :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

ALTER TABLE $Table ADD INDEX ( `id`);

ne fonctionne malheureusement pas sur les csv :
"SQL ERROR: Command 'ALTER' not recognized or not supported!"

Un des inconvénients de ma solution est qu'il est bien sur plus possible de faire des jointures directement dans les requêtes, pas grave

Encore merci pour ton aide

**Jasmine80** · 05/06/2008, 14h41

Tant mieux si tu as trouvé une solution. N'oublie pas d'indiquer que le sujet est résolu.

**Jedai** · 05/06/2008, 20h52

Pour la postérité, DBI::CSV n'est pas destiné à effectuer ce genre de requêtes rapidement, il n'est là que pour permettre facilement de passer d'un système basé sur du CSV à un système basé sur une vraie BDD, lorsqu'on commence à monter en charge par exemple. (NB : Le meilleur module pour traiter du CSV en Perl est Text::CSV_XS)

--
Jedaï

DBI: CSV - Accélérer les requêtes

SGBD Perl

Vue hybride

Discussions similaires

Partager

Partager