[Stratégie][Fichier][Memoire]Scan disques volumineux

**Mobaladje** · 20/05/2004, 12h46

Bonjour, j'essaie de réaliser un logiciel dont le premier travail consiste à scanner l'arborescence complete d'une machine pour stocker la liste de tous les fichiers. Or les machines en questions sont d'énormes serveurs, plusieurs millions de fichiers et j'ai des problemes d'optimisations.
Pour commencer j'ai un thread qui scan les disques de façon récursive (algo présent dans la FAQ), ce thread remplit un vecteur de File qui est sérializer et réinitialisé a chaque fois que sa taille dépasse 35000. Cela crée des 10aines de fichiers d'environ 3Mo.
A la fin du scan je dois trier par ordre alphabétique tous les fichiers trouvés par leur nom (choix arbitraire). Et c'est la qu'est le plus gros problême. J'ai implementé un "quicksort" (algo de tri rapide) qui fonctionne bien mais je dois lui donner en entrée un vecteur de file contenant tous les file trouvés. Or avec plusieurs millions de files, j'explose allégrement la mémoire.
Je cherche donc un moyen de faire le tri des fichiers petit bout par petit bout pour ensuite résérialiser les vecteurs triés.
Si vous avez des idées sur comment accélerer toutes cette procédure je suis preneur. Merci.

**Mobaladje** · 21/05/2004, 07h49

Bon mon probleme s'est légèrement modifié. J'ai réalisé un moteur de donnée stable jusqu'à 100 000 000 de record (temps d'un select toto from table inferieur à 200 ms et empreinte mémoire de 2Mo en moyenne). le probleme est l'indexation des données, en fait le temps pour réaliser cette étape. Je suis actuellement à 9ms par record ce qui fait 30 heures pour 10 000 000 de données, c'est lent. Cela vient du tri alphabétique (toujours) mais aussi de la manipulation de treemap. la méthode d'indexation réalise 40000*2 acces disque pour 10 millions de données.
Donc mon probleme est comment créer une treemap de x millions de clés en peu de temps (sachant qu'a patir de 250 000 cles il y a une joli outof memory error..)?
Merci.

**ZeKiD** · 21/05/2004, 12h54

As tu utilisé les propriétés d'extension de mémoire de la JVM.
Par défaut elle doit démarrer à 32Mo ou 64 Mo.
Les propriétés sont -Xmx256M et -Xms256M pour utilisation de 256M.
Je ne me rappelles plus à quoi correspondent exactement c'est deux paramètres mais tu peux chercher dans cette direction cela te donnera une idée.
Mais dis moi quel est le but fonctionnel de ton application pour stocker tous les fichiers d'un disque...
Sinon tu dois pouvoir avoir la possibilité de créer des objets sérialisables qui aurait une taille raisonnable (à définir en fonction du nombre de fichiers... algo à chercher).
Et une fois que tu as créer tes objets sérialisables. Tu les traites tous.
De toutes façon le scan de plusieurs millions de fichiers demandes forcément bcp de temps.
Tu n'as qu'à regarder les recherches sur les disques (normalement déjà indexé sont souvent désastreuses si tu scan tout....)
Sinon pour ta base de données j'ai pas compris :

le probleme est l'indexation des données, en fait le temps pour réaliser cette étape. Je suis actuellement à 9ms par record ce qui fait 30 heures pour 10 000 000 de données, c'est lent. Cela vient du tri alphabétique (toujours) mais aussi de la manipulation de treemap. la méthode d'indexation réalise 40000*2 acces disque pour 10 millions de données

Pourquoi utilises tu une TreeMap pour trier.
Tu n'as qu'à utiliser les fonctions de la base de données "order by asc".
Non ?
Voilà en espérant avoir pu t'aider.

**Mobaladje** · 21/05/2004, 13h34

Merci pour ta réponse. J'aimerais éviter d'avoir recours à une augmentation de charge au niveau de la ram (je vais tester quand même).
Sinon le gros avantage de treemap dans mon cas c'est qu'il "trie" les clés en fonction du comparateur que je lui donne. Cela me permet un acces hyper rapide aux données malgré le volume de celles ci. Mais comme je ne peux pas créer un treemap de 10E6 clés je dois réorganiser tous les petits treemaps dans l'ordre qu'ils auraient s'il n'y en avait qu'un. C'est la qu'est le probleme...

**ZeKiD** · 22/05/2004, 12h49

Tu peux peut-être créer des TreeMap inclus les unes dans les autres avec pour clé par exemple la première lettre du mot d'indexation.
Ayant 27 lettres dans l'alphabet, sur la première lettre cela te permet de divisé par 27, le nombre d'entrée par TreeMap.
Et tu peux continuer comme çà, sur une à trois lettres par exemple.
Ce qui te fera en plus une pseudo indexation pour les fichiers commencant par des lettres choisis.
Enfin voilà , si çà a pu t'aider ...

**thebubble** · 22/05/2004, 15h10

Hello

Je pense que de passer par une base de donnée serrai plus simple non?
Et surement plus efficasse

**Mobaladje** · 22/05/2004, 17h05

Ca y est j'ai trouvé une méthode assez performante. J'arrive à indexer 10 millions de fichiers en 20 minutes (au lieu de 30 heures pour les versions précédentes). Et ça avec un temps d'accès aux données de l'ordre de 100ms. Le secret rédide dans l'utilisation de tableaux de File à la place de treemap pour la premiere partie du travail et seulement ensuite passage à des treemap.
Merci à tous ceux qui ont répondu.

**ZeKiD** · 22/05/2004, 17h15

Mais à la base tu n'avais pas utilisé les tableaux de File ?????????????????
Ah je comprends mieux pourquoi c'était pas performant !!
Bon l'essentiel c'est que tu es trouvé.
A+

**Mobaladje** · 22/05/2004, 19h06

A la base j'avais un probleme pour trier les tableaux de File et pour créer un tableau de plusieurs millions de File...

[Stratégie][Fichier][Memoire]Scan disques volumineux

API standards et tierces Java

Discussions similaires

Partager

Partager