Mesure de similarité de groupe

**selmagsi** · 06/09/2018, 18h57

Salut les développeurs,

alors , traditionnellement on utilise la mesure de similarité pour mesurer la similarité entre deux objet (profile, vecteurs... etc).
moi j'ai un ensemble de N utilisateurs et un utilisateur Ui. Je veux mesurer la similarité de Ui avec l'ensemble des utilisateurs de N. Je pense mesurer la similarité de Ui avec chaque utilisateur de N puis calculer la moyenne, qu'est ce que vous en pensez??

merci pour vos avis

**tbc92** · 07/09/2018, 10h19

... Et la fin du process , c'est quoi ? Tu calcules cette moyenne, et dans quel cas tu dis que c'est ok, dans quel cas tu dis que c'est pas ok ?

**anapurna** · 07/09/2018, 11h05

salut

le but étant de faire quoi au final
Pour reduire le nombre de test de similarité tu peut faire l'inverse et utiliser la méthode de championnat
c'est a dire faire un test de similarité 2 à 2 si le test est concluant
alors on calcul la valeur moyenne
et à la fin le User_Ui rencontre le champion

c'est a dire la valeur moyenne des similarités

**selmagsi** · 07/09/2018, 20h40

tbc92 je compte définir un seuil comme réference, j'essaye de m'orienter vers Game theory.

anapurna je n'ai pas bien compris cotre philosophie mais j'essaye d'en tirer qlq choses

**anapurna** · 09/09/2018, 16h25

Salut
dans ta présentation tu nous as dis faire un test de similarité avec tout les user
a l'inverse moi je te propose de faire des test d'utilisateur deux a deux et de déterminer un user médian
avec lequel tu pourras tester le tiens
quand je parle de championnat

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
 [USER2] [USER3] [USER4][USERUI]
            |                      |
       [USER_M1]          [USER_M1]
                         |
                    [USER_MF]             [USERUI]   <====== Ici ton test final

**selmagsi** · 11/09/2018, 11h42

justement, la mesure de similarité dans les systèmes classque se fait deux à deux (système de recommandation).
moi ce que je pense c'est de faire le test de similarité d'un target user avec deux autre user (user i et user j) peut etre que l'union des deux users fait que leur similarité soit bien forte avec le target user!! vous voyez!! mais je ne sais pas comment faire cette union , j'essaye de réflechir à une méthode juste et logique !!

Invité · 11/09/2018, 12h54

bj

@anapurna ya til un nom à cette technique?

**anapurna** · 11/09/2018, 15h42

salut

ne sachant pas ce que tu compare ils nous est très difficile d'entrevoir une solution optimisé a tes besoins.
il peut exister une multitude de solution

un nom je ne pense pas ... je ne suis même pas certain que la solution soit efficace pour ce que tu demande
ma démarche est de te proposer des solutions alternative demandant moins de calcul.

Avec mon exemple tu pourrait au final déterminer un User n'ayant que les caractéristique commun des autres user (PGCD)

et ainsi comparait ton utilisateur au PGCD(User)
ensuite pourquoi pas calculer la similarité moyenne avec le PGCD(User)

la valeur moyenne peut être trouvé ainsi avec la liste des utilisateur déjà trié

_PGCD = PGCD(Utilisateurs);
SimSommeMax = 0 ;
n := 0;
Pour chaque Liste Utilisateurs faire
simMax =0 ;
U1 = Utilisateurs[n]
//calculer la similarité simUser U1 et _PGCD
Si simUser(U1,_PGCD) > simMax Alors
SimMax = simUser(U1,_PGCD);
Fin Si ;
SimSommeMax = SimSommeMax + simMax ;
Inc(n);
Fin Pour ;
SimMoy = SimSomme / NombreUtilisateur ;

tu pourrais voir si la similitude de ton user face au PGCD et comparable a la similitude moyenne de tout les autre utilisateurs

comme je le disais au début il est difficile pour nous de déterminer un but sans en connaitre les tenants et les aboutissants

Invité · 12/09/2018, 10h21

Ya certainement toute une th. mais ce que je tenterais bien c'est l'une des deux approches:

1) réduire le dataset à un centroid puis calculer la distance d(U, centroid)
2) chercher le point P du dataset le plus proche de ton user, puis calculer d(U, P)

La première fait très cluster, mais jpense ya des pb de type: si ton dataset decrit une boule de R^n de rayon r1 moins la boule de rayon r2 (r2 < r1)
alors ton centroid est en 0^n et un point U sur la boule de rayon r3, r3 < r2 aura une ptite distance de ton dataset alors qu'au final il n'y appartient "pas"

La deuxième au finale est sensible aux utilisateurs de ton dataset qui sont "excentrés" et ne représentent pas tant que ca ton dataset

Une dernière approche que je vois qui en découle c'est de tenter de définir le volume délimité par ton dataset
de faire un monte carlo où tu labeles 1 ou -1 selon que le point appartient au volume
puis de faire un svm où ton hyperplan va délimiter la surface de ton volume et "gommer" les mecs excentrés
puis qd tu calcules ta distance tu te bases sur l'erreur retournée lors de la classification
du coup tu va normalement donner une grosse distance pour les mecs "dans le trou", une distance "normale" pour les mecs proches d'un excentré et une ptite distance pour les gars "dans" le dataset?

**selmagsi** · 15/09/2018, 21h23

@galerien69 et @anapurna merci beaucoup pour ces idées si précieuses , je les étudie avec attention et voir si ça abouti à une solution efficace!!

si non je tiens toujours à l'union des users, c a d ui avec uj donne une grande similarité avec le target user que le target user avec ui et le target user avec uj. je pense à reduire le nombre de users avec l'une des méthodes proposé puis faire l'union des user deux à deux. ie je définis les caractéristiques les plus importantes c1 et c2 par example puis je fais l'union deux à deux des users qui ont c1 et c2 commune et je calcule la similarité, qu'est ce que ous en pensez????
merci pour vos tetes

Mesure de similarité de groupe

Méthodes exploratoires

Discussions similaires

Partager

Partager