Bonjour à tous!!

je me permet de faire appel a vous car voila 3 jours je butte sur un probléme qui m'empeche d'avancer :-(.
je travail sur une collection de folksonomies (pour ceux d'entre vous qui ne savent pas ce que cela veux dire je laisse le soin à Marziah Karch de vous l'explique : http://google.about.com/bio/Marziah-Karch-20906.htm :-) )

Je dois traiter une collection de folksonomies sur plus de 8go ,c'est un fichier texte, et donc j'ai préféré la splitter en 47 fichiers de 100 mo ..enfin la n'est pas le probléme.
aprés avoir parser les fichiers en utilisant l'api regex de java j'obtiens des fichiers qui ressemble plutot à ça:
Nom : Sans titre.jpg
Affichages : 91
Taille : 24,2 Ko
chaque colonne représente respectivement: les utilisateur , les ressources , les tags.

Mon probléme est le suivant:

il me faut pondérer les tags en ayant la structure suivante:
user=(tag1:vix1 , tag2 vix2.....)

En sachant que :
vix=N(i,x)/Ni

N(i,x) nombre de fois que l'utilisateur i use du tag x pour annoter des ressources.
Ni nombre de ressource taggués par i.

exemple:

187=(newyears2004:1.01,roma:2.012....)

Quelqu'un pourrais m'aider je suis au bord du gouffre la !!??