Capacité d'un hash

**djibril** · 20/02/2006, 13h55

Salut à tous,
petite question sur les Hash.
Je dois scinder un fichier qui fait 15 Go en plusieurs fichiers. Et la facon la plus pratique pour moi serait d'utiliser un hash. Mais avant, je voudrais savoir la capacité maximal d'un hash!!!
Puis mettre environ 4 Go de données dans un hash???

Merci!!

**GLDavid** · 20/02/2006, 14h40

Hello Djibril

Il faut gérer ça en mémoire ! Ca va être chaud ! Etant donné que tu es sous Linux maintenant (

) un petit recours à la commande split serait à envisager.

@++

**djibril** · 20/02/2006, 14h53

je veux pas forcement mettre les 15Go en memoire, ce sera impossible, mais je sais pas la limite.
Je pourrais mettre 1Go, ou plus, bref je sais pas.
c'est un fichier speciale (fasta pour les connaisseur) , et je peux pas le couper n'importe comment.

**GLDavid** · 20/02/2006, 16h59

Tiens, entre bioinformaticiens on va s'aider

C'est quoi comme fichier fasta ?
nr ?
Maintenant, veux-tu sciender ce fichier de manière régulière ou logique (en fonction de la taxonomie par exemple ) ?

@++

GLDavid, protéomiste qui aide Djibril, un autre protéomiste

**djibril** · 20/02/2006, 17h16

c'est est_others dans dans le ncbi (/pub/db/FASTA/) c'est un .gz de plus de 4 Go, qd tu le decompresse, il fait 15 Go. Je voudrais faire un script qui scinde ce fichier en plusieur fichier d' environ 4 Go (sachant que d'ici quelques mois, le fichier d'origine sera > 15 Go).
Voilà, c'est tout bete (bon je me suis pas penché à fond dessus pour l'instant car d'autres soucis info

).

**GLDavid** · 20/02/2006, 17h26

Ok, je vois.
Il faudrait voir si ton file system accepte des fichiers de 4 Go (c'est la limite pour ext3, si je ne me trompe pas).

@++

**2Eurocents** · 20/02/2006, 17h28

N'étant pas bio-informaticien, j'assume le risque de raconter des bétises, sur ce sujet ...

Ne serait il pas pertinent d'indexer ce monstrueux fichier ?

Si j'ai bien lu les (vieux) messages traitant de fichiers FASTA, ils contiennent une "clef", du genre nom de protéine, suivie du séquençage d'ycelle.

J'aurais naturellement tendance à lire ce fichier séquentiellement pour me constituer un hash dont la clef est la "clef" du fichier FASTA et dont la donnée est la position dans le fichier à laquelle elle commence ... (on peut aussi ajouter une autre info qui serait la longueur ...).

Cela faciliterait les extractions ultérieures (pour obtenir des fichiers plus petits ne contenant que les protéines voulues).

Si votre fichier de référence ne change pas de structure mais qu'il reçoit simplement des ajouts en fin, l'index restera valable, pour ce qu'il connait, malgré les ajouts de protéïnes, et il suffira de relancer l'indexation pour prendre en compte les nouvelles protéïnes ...

C'était mes 2centimes de bioinfo

Capacité d'un hash

Langage Perl

Vue hybride

Discussions similaires

Partager

Partager