parser un fichier de 277 Go !

**djibril** · 25/05/2009, 15h36

oubie pas test4 avec -L , elle majuscule

wc -L ../resultats/Match_natif_human_5000up.txt

**djibril** · 25/05/2009, 15h40

Peux tu nous montrer comment tu génères ce fichier et nous dire l'intérêt d'avoir un fichier de 277 Go ?

**zaboug** · 25/05/2009, 15h55

Envoyé par djibril

oubie pas test4 avec -L , elle majuscule

je n'oublie pas, mais le premier (avec le -l minuscule) n'est toujours pas terminé.

Envoyé par djibril;

Peux tu nous montrer comment tu génères ce fichier et nous dire l'intérêt d'avoir un fichier de 277 Go ?

je veux bien montrer les codes générant le fichier sur lequel je travaille, mais l'algo qu'il y a derrière est assez complexe.
En gros, j'ai à la base un fichier multifasta contenant une liste de 12951 promoteurs. Je prends les promoteurs un à un, et j'exécute un programme s'appelant MATCH dessus. Le programme MATCH permet d'obtenir la liste des TFBS potentiels qu'il y a sur le promoteur.
Donc je génère un fichier qui répertorie tous les TFBS potentiels de chaque promoteur.

Le truc, c'est qu'il va falloir filtrer ce fichier car il y a des TFBS non spécifiques qui sont trouvé. Au départ, on voulait avoir un fichier "natif" (non filtré) pour avoir quelques stats dessus (nombre de FT différents, nombre max de FTs par promoteur...). Je ne m'attendais pas à un fichier de 277Go...

Du coup, tant pis pour les stats, je pense retravailler le script qui génère le fichier mais cette fois avec une contrainte permettant un "pré"-filtrage des résultats pour avoir un fichier plus léger à traiter après...

**zaboug** · 25/05/2009, 16h11

bon, alors le
a donné 37587 lignes, ce qui encore une fois me parait peu.

J'ai essayé avec le -L, mais l'option n'existe pas. Je travaille sur Mac, c'est peut être pour ça, mais les seules options disponibles que j'ai ce sont celles-là :

The following options are available:

-c The number of bytes in each input file is written to the standard output. This will cancel out any
prior usage of the -m option.

-l The number of lines in each input file is written to the standard output.

-m The number of characters in each input file is written to the standard output. If the current
locale does not support multibyte characters, this is equivalent to the -c option. This will can-
cel out any prior usage of the -c option.

-w The number of words in each input file is written to the standard output.

When an option is specified, wc only reports the information requested by that option. The order of output
always takes the form of line, word, byte, and file name. The default action is equivalent to specifying
the -c, -l and -w options.

ce qui parait le plus proche de ce qu'on veut, c'est l'option -m, mais je suis pas sur que ça donne la taille de la ligne la plus longue... je vais tester quand même, ça coute rien.

Mais bon, étant donné que je peux pas traiter ce fichier et qu'il n'y a visiblement pas assez de lignes, je vais générer à nouveau le fichier en le filtrant pour obtenir un fichier moins lourd...

**MaliciaR** · 25/05/2009, 19h04

Salut,

Envoyé par zaboug

En gros, j'ai à la base un fichier multifasta contenant une liste de 12951 promoteurs. Je prends les promoteurs un à un, et j'exécute un programme s'appelant MATCH dessus. Le programme MATCH permet d'obtenir la liste des TFBS potentiels qu'il y a sur le promoteur.
Donc je génère un fichier qui répertorie tous les TFBS potentiels de chaque promoteur.

Une idée qui vaut ce qu'elle vaut. Tu ne voudrais pas créer un fichier de sortie par promoteur testé? Bon, ok, ça fera au pire des cas 12951 fichiers

Mais ce que tu peux faire, c'est créer un filtre à ce moment et ça te fera aussi tes stats. Je veux dire que tu peux faire plusieurs choses : rediriger le résultat de chaque recherche avec MATCH vers un fichier (promoterX.out avec X le nom ou le n° de ton promoteur dans le fichier d'entrée); mettre un seuil (là, c'est toi qui vois lequel, je ne connais pas MATCH) qui dit que si ce seuil est satisfait, le fichier .out est créé et on écrit le résultat dedans, sinon il est créé mais vide. Ainsi, tu pourras avoir directement des fichiers pleins avec les données qui t'intéressent et de taille plus petite que ~ 300 Go

et d'une autre part, des fichiers tartampion.out vides qui disent directement que le promoteur tartampion ne contient pas les TFBS.

**zaboug** · 26/05/2009, 08h52

MaliciaR, ça aurait pu être une bonne idée si je n'avais eu qu'à faire des stats. Mais sur tous les promoteurs il y aura des TFBS, c'est juste qu'il y en a qui apparaissent 300 fois (ceux que je dois éliminer) et d'autres qui apparaissent une fois. Cela dit, pas d'inquiétude, j'ai déjà une contrainte de filtrage codée. On voulait faire des stats sur un fichier non filtré pour voir, mais si ce n'est pas possible, ce n'est pas un drame...

Djibril, tu avais raison, j'ai finis par obtenir les résultats des commandes wc. J'ai testé mes deux fichiers : celui que j'avais déjà, qui fais 1,45Go et contient "seulement" 4250 promoteurs, et sur le fichier de 277Go.

Pour la commande

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

wc -l ../resultats/Match_natif_human_5000up.txt

sur le petit fichier, j'obtiens : 18 819 923
sur le grand fichier, j'obtiens : 37 587

c'est incohérent d'avoir plus de lignes dans un fichier censé contenir plus de promoteurs....

après de longues heures d'attentes, j'ai finis par obtenir les résultats de la commande

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

wc -m ../resultats/Match_natif_human_5000up.txt

pour le petit fichier : 1 560 675 523
pour le grand fichier : 297 599 248 110

Donc y'a bien une ligne énorme qui fout la grouille dans le gros fichier...

Du coup, je m'en vais de ce pas corriger le script qui génère le fichier, et il ne devrait plus y avoir de problème.

Merci de votre aide, j'aurais jamais vu ça toute seule

**zaboug** · 26/05/2009, 11h35

bon, finalement le problème ne venait pas du script qui génère mes fichiers (ou pas complètement)!

Le fichier est généré sur une machine virtuelle, et visiblement, le problème vient de là. Maintenant, reste à comprendre le pourquoi du comment.

Je viens de poster l'explication du problème sur le forum de virtualisation ici :
http://www.developpez.net/forums/d75...ille-fichiers/

Je met quand même le résolu, étant donnée que le problème ne venait pas de la manière de parser le fichier, mais bien du fichier lui-même...

parser un fichier de 277 Go !

Langage Perl

Discussions similaires

Partager

Partager