Classement de messages en discussions [Java]

**maccormick** · 11/07/2011, 13h52

Bonjour à tous,
Je travaille en ce moment sur la classification de messages mail : comment les ranger en discussions, sans passer par l'en-tête "in reply to" qui a des lacunes.
La solution que j'ai trouvée est de tronquer les sujets des messages à 15 caractères, en ayant enlever tous les caractères supplémentaires (-, ., ... etc) et de les comparer 2 à deux, selon 2 paramètres : leur date d'émission et leur distance de Levenshtein (qui calcule une distance selon les caractères en commun).
Avant je fonctionnais sur une base de données, donc il m'était facile de faire un ORDER BY sujetTronqué, dateEnvoi puis de calculer ensuite une distance de Levenshtein et un écart de date entre un message et son suivant.
Maintenant je veux travailler en "tout objet" car c'est beaucoup moins lourd mais je rencontre le problème suivant.
J'ai choisi d'utiliser les Map de JAVA qui associent une clé à une valeur. Le principe est donc de trier d'abord les messages selon leur sujet tronqué, puis de remplir la Map selon <sujet tronqué, tableau de messages ayant le même sujet tronqué>. Le problème est que les Map n'acceptant pas de doublons, je ne sais plus quoi faire des messages ayant le même sujet tronqué, mais pas la même distance de Levenshstein, ou une date trop lointaine ...
D'où ma question : avez vous d'autres idées d'algorithme permettant de faire ce que je veux ?

**davly** · 12/07/2011, 16h25

Bonjour,

Si tu veux garder ton algorithme actuelle et garder tes hash map, il suffit de rajouter a tes message tronquer un indice, ce qui rendrait ce message unique mais en cas de message tronqué similaire, pour tout ce qui est calcul, tu le fera sans cette indice, mais pour l'enregistrement tu concatène l'indice a la fin.
(exemple d'indice: 1,2,3.. )

ça pourrait etre une solution en gardant ton idée.

David.

**maccormick** · 19/07/2011, 13h36

salut,
merci, mais j'ai résolu mon problème : je ne travaille plus sur des map, mais directement sur mes objets "message", car mon soucis venait de mes comparators qui étaient extrêmement longs car ils prenaient 2 paramètres, et j'ai corrigé en utilisant l'api Collections des commons d'apache où il y a une petite classe trop bien ComparatorChain : c'est exactement ce qu'il me fallait !
merci quand même !

Classement de messages en discussions [Java]

Algorithmes et structures de données

Vue hybride

Discussions similaires

Partager

Partager