IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

parser un fichier de 277 Go !


Sujet :

Langage Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Femme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juin 2008
    Messages
    379
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 40
    Localisation : France, Val d'Oise (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Juin 2008
    Messages : 379
    Par défaut parser un fichier de 277 Go !
    Bonjour,

    je voulais savoir s'il y a une limite de taille des fichiers que l'on peut parser avec Perl?

    En effet, j'ai un fichier de 277 Go que je dois parser pour faire des stats.
    Le truc de base, c'est de compter le nombre de fois qu'on retrouve une certaine chaine de caractère. Je le fais avec le code suivant :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
     
            open(MATCH, "<$opt_f") or die("Impossible d'ouvrir $opt_f\n");
     
    	my $line;
    	my $prom_id = 0;
     
    	while(defined($line=<MATCH>) )
    	{
    		if($line =~ m/Tag_id .+/)
    		{
    			$prom_id ++;
     
    		}
     
    	}
     
    	close(MATCH);
     
    	print "\nNombre de promoteurs : $prom_id\n";
    Si tout c'est bien passé avec le script qui a générer le fichier, $prom_id devrait valoir un peu plus de 12000.

    Sauf que j'obtiens toujours l'erreur l'erreur suivante :
    cgmc134:bin mathilde$ perl stat_FT_Match.pl -f ../resultats/Match_natif_human_5000up.txt
    perl(9196) malloc: *** mmap(size=2397048832) failed (error code=12)
    *** error: can't allocate region
    *** set a breakpoint in malloc_error_break to debug
    Out of memory!
    Je ne comprends pas comment une simple incrémentation peu générer un "out of memory". C'est pourquoi je me demandais s'il y avait une limite de taille des fichiers traitables par Perl ou pas...

  2. #2
    Membre régulier
    Profil pro
    Inscrit en
    Mai 2004
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2004
    Messages : 10
    Par défaut
    Bonjour,

    Pourquoi tu ne découpe pas ton fichier en fichier plus petit pour ensuite les parsé les uns après les autres (en écrivant un .bat par exemple) ?

  3. #3
    Membre éclairé
    Femme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juin 2008
    Messages
    379
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 40
    Localisation : France, Val d'Oise (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Juin 2008
    Messages : 379
    Par défaut
    j'y ai pensé, le problème c'est que je dois faire un décompte général de certaines chaines de caratères, et je ne vois pas comment je pourrais le faire en découpant le fichier d'origine.

    L'autre problème, c'est que pour découper le fichier, il faudra quand même le parser (car il ne faut pas couper n'importe où)...

  4. #4
    Membre éclairé
    Femme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juin 2008
    Messages
    379
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 40
    Localisation : France, Val d'Oise (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Juin 2008
    Messages : 379
    Par défaut
    Sur ce site : http://www.delafond.org/traducmanfr/...n1/perl.1.html

    je viens de lire ceci :

    Contrairement à la plupart des utilitaires Unix, Perl ne limite pas arbitrairement la taille des données --- si vous avez assez de mémoire, Perl peut remplir une chaine de caractères avec le contenu total d'un fichier. Il n'y a pas de niveau maximum à la récursivité. Et les tables utilisées par les tableaux de hachage (anciennement appellé ``tableaux associatifs'') croissent dès que nécessaire afin de garantir un bon niveau de performance.
    Donc visiblement, Perl n'impose pas de limite de taille pour les fichiers qu'il peut traiter. Par contre, ce qu'il peut mettre en mémoire dépend de la mémoire qu'on a sur l'ordi qu'on utilise.

    Est ce qu'il faut en déduire qu'il essaie de mettre le fichier entièrement en cache? auquel cas, forcément, un fichier de 277Go ça bloque...
    Mais il me semblait justement qu'utiliser :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    open(MATCH, "<$opt_f") or die("Impossible d'ouvrir $opt_f\n");
     
    my $line;
    while(defined($line=<MATCH>) )
    {
           traitement ligne par ligne
    }
    permettait de ne pas mettre tout le fichier en mémoire (vu que ça traite le fichier ligne par ligne).

    En fait, je comprends pas du tout pourquoi j'obtiens un "out of memory" avec un code qui incrémente de 1 une variable pour seulement 12000 et quelques lignes d'un fichier, en le lisant ligne par ligne...

  5. #5
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 822
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 822
    Par défaut
    vu que tu parses ton fichier ligne à ligne, tu peux le faire sans souci, j'ai un réécrit ton code proprement.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    open( MATCH, '<', $opt_f) or die ("Impossible d'ouvrir $opt_f\n");
    my $prom_id = 0;
    while ( my $line = <MATCH>  ) {
      if(  $line =~ m/Tag_id .+/) {
        $prom_id ++;
      }
    }
    close(MATCH);
    print "\nNombre de promoteurs : $prom_id\n";

  6. #6
    Membre éclairé
    Femme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juin 2008
    Messages
    379
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 40
    Localisation : France, Val d'Oise (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Juin 2008
    Messages : 379
    Par défaut
    bah je suis bien d'accord avec toi, c'est ce que me semblait aussi. Sauf qu'en pratique, ça marche pas!
    J'obtiens toujours le message suivant (en ayant pris ton code) :

    cgmc134:bin mathilde$ perl stat_FT_Match.pl -f ../resultats/Match_natif_human_5000up.txt
    perl(9647) malloc: *** mmap(size=2397048832) failed (error code=12)
    *** error: can't allocate region
    *** set a breakpoint in malloc_error_break to debug
    Out of memory!

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [SAX] parser un fichier xml en Java
    Par royou dans le forum Format d'échange (XML, JSON...)
    Réponses: 1
    Dernier message: 10/02/2005, 17h12
  2. parser un fichier .dtd
    Par bgranou dans le forum Valider
    Réponses: 2
    Dernier message: 04/06/2004, 19h53
  3. parser des fichier .xml en perl
    Par djibril dans le forum Modules
    Réponses: 13
    Dernier message: 18/05/2004, 17h08
  4. parser un fichier avec xerces
    Par traiangueul dans le forum XML/XSL et SOAP
    Réponses: 9
    Dernier message: 02/02/2004, 18h14
  5. parser un fichier html
    Par noarno dans le forum ASP
    Réponses: 2
    Dernier message: 10/12/2003, 17h53

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo