[Conception][performance] mysql table de 10000 enregistrements / hashmap

**debdev** · 08/07/2005, 16h46

Bonjour,

J'ai posté ce message dans le forum MySQL mais je n'ai pas de réponse pour le moment et peut etre que le forum java est plus approprié pour ma question.

J'ai une base de données MySQL. J'ai une table contenant 10 000 enregistrements (pour l'instant, un seul champ par enregistrement). Le but du programme java est de rechercher, pour chaque enregistrement, s'il se trouve dans un texte d'environ 25 lignes.

Ce que j'ai fait:
Je parcours ligne par ligne la table (select * from ma_table) et je recherche pour chaque enregistrement s'il est présent dans le texte. Mais c'est très long (plusieurs minutes).

Est-ce plus performant de stocker les 10 000 lignes dans une hashmap ? puis de faire une itération sur la hashmap et de rechercher dans le texte à partir de la hashmap ? ou bien est ce que c'est long aussi de mettre les données de la table dans une hashmap?

Merci de vos conseils

**christopheJ** · 08/07/2005, 17h01

Bonjour,

Je ne sais pas si cela peut répondre.....
Pourquoi ne pas inserer ton texte dans une table avec un mot par ligne et ensuite laisser la base faire une jointure sur les deux tables....
Le Resultset te donnera la liste des mots présents dans ton texte et dans la base.
Je pense que ce sera plus performant que de balayer tout ton texte en comparant les mots un par un avec un mot extrait de la base....

**NGY** · 08/07/2005, 17h01

Si ta table ne contient qu'un seul champ, ce ne devrait pas être trop lourd de tout stocker dans une structure.
Le gain en termes de performance devrait être conséquent et 10000 String, c'es pas si énorme que ça. (à moins qu'elles ne fassent chacune des dizaines Ko)
Par contre, je stockerais plutôt les données dans un Set et pour savoir si le texte est présent, tu fais un mesDonnes.contains().

**vbrabant** · 08/07/2005, 21h15

J'ai quelques questions:
Est-ce que le programme va servir qu'une seule fois ?
Est ce que la table est souvent mise à jour ?
Est-ce que le texte est toujours de maximum 25 lignes (de 80 caractères ??) et les enregistrements contiennent 1 seul mot (ou une phrase) ?

Si ce n'est qu'une seule fois, on s'en fout un peu si on devra attendre 5 minutes au lieu de 30 secondes, comparé au temps que tu passeras à l'optimiser.

Si la table n'est (presque) jamais mise à jour, le la chargerais une fois dans la structure, et ensuite je serialiserais la structure pour la recharger à la prochaine occasion. A la limite, même intérroger la table pour voir si elle a été modifiée depuis la dernière sérialisation.

Si le texte est toujours de maximum 25lignes * 80 caractères, tu as plus intérêt à inverser ton processus, non ?

Pour chaque mot (ou phrase) du texte, le mettre dans une Collection n'acceptant pas les doublons (pour éviter de stoquer 2 fois le même mot (ou la même phrase)).

Ensuite, pour chaque entrée de cette Collection, vérifier s'il elle est présente dans la table.

En supposant qu'un texte de 25 lignes*80 caractères contient environ 400 mots (ou 100 phrases). Cela te fera 400 (100) selects maximum sur la db retournant un record (entrée présente dans la table ou pas)au lieu de faire 1 select retournant 10000 records. Et si tu utilises un PreparedStatement pour cela, tu amélioreras également les performances.

Aussi, si tu veux rien changer à ton code existant, essayes toujours d'augmenter le nombre de records qui doivent être retournés à la fois.
http://javasearch.developpez.com/j2s...FetchSize(int)
Pour le mettre à 100 par exemple si tes enregistrements ne sont pas trop grand.

**Mouquiette** · 08/07/2005, 21h40

Comme ChristopheJ, je pense que le plus efficace, c'est de stocker tous tes mots du texte dans une temporary table et d'effectuer ensuite une jointure.

Ca te donnerai un code sql de ce genre (pour selectionner les mots de ton txt qui ne sont pas ds la table, si je me suis pas trompé ds ma jointure

:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
CREATE TEMPORARY TABLE temp ( mot text NOT NULL);
INSERT INTO temp ('mot1'), ('mot2') .. ('motN');
SELECT * FROM temp LEFT JOIN my_table ON temp.mot = my_table.mot WHERE my_table.mot IS NULL;

**debdev** · 09/07/2005, 11h29

Tout d'abord merci à tous les 4 pour vos réponses.
Pr répondre aux questions de vbrabant,
- le programme va servir plusieurs fois
- les tables seront peu souvent mises à jour
- les textes feront casi toujours entre 20 et 30 lignes
- les enregistrements contiennent des expressions de 1 à 8 mots environ

J'avais imaginé un truc du genre de NGY mais je pensais utilisé une map et non un set. C'est vrai qu'avec les sets , je n'aurai pas de doublons. Mais normalement, dans mes tables, il n'y en a pas de doublons. Donc je vais chercher les différences de performance entre map et set.

En ce qui concerne la méthode de christopheJ et mouquiette, et le conseil de vbrabant pour inverser le processus (mettre les mots ou phrases dans une collection puis pour chq entrée de la collection, regarder si elle est présente dans la table des 10000 enregistrements) :

si dans mon texte, j'ai la phrase: "il fait tres beau" et dans ma table T, j'ai l'enregistrement "tres beau" :

- si je mets les mots du texte un par un dans la collection ou un par un ds la table temporaire, il y aura les mots :"il", "fait","tres", "beau". Dans la table T , j'ai 1 enregistrement contenant "tres beau" mais pas "tres" tout seul ni "beau" tout seul. Est ce que ça trouvera qd meme que les mots du texte "tres" et "beau" sont dans la table T?

- si je mets les phrases du texte une par une dans la collection ou ds la table temporaire, j'aurai : "il fait tres beau". Dans la table T , j'ai toujours l'enregistrement contenant "tres beau". est ce que ça trouvera qu'il y a une partie des mots de la phrase qui sont présents dans la table T ? car c'est 100% sur que je n'aurai jamais une phrase complète du texte présente dans la table T , mais seulement des expressions de quelques mots.

voila pr mes questions.
Merci de votre aide.

[Conception][performance] mysql table de 10000 enregistrements / hashmap

Collection et Stream Java

Discussions similaires

Partager

Partager