regroupement et probabilité

**corentin59** · 10/12/2007, 17h43

Bonjour

voici mon problème. J'ai une variable aléatoire discrete X pouvant prendre n valeurs. Je connais les probabilités p(X|A) (ie n valeurs positives dont la sommes est un) où A est un évènement.

Cet évènement A peut être découpé en m sous-évènements Ai, i=1...m. Je connais aussi les distributions p(X|Ai) (toujours n valeurs...). Considérer un sous-évènement Ai au lieu de l'évènement A peut apporter quelque chose ou alors ne servir à rien (l'information apportée par Ai est la même que celle apportée par A).

Ma question est la suivante : je voudrais faire des regroupements de sous-évènements en mettant ensemble ceux qui n'apportent rien par rapport au cas général et en ne gardant que ceux qui peuvent apporter quelquechose. Pour faire ce regroupement, j'ai pensé à me baser sur l'information mutuelle mais je ne sais pas comment l'utiliser dans ce cas.

Merci de vos lumières

**Zavonen** · 10/12/2007, 20h25

Je ne peux que te conseiller de consulter les bases de la théorie de l'information de Shannon (c'était autrefois ma spécialité).
Il faut connaître les notions suivantes:
Quantité d'information apportée par la réalisation d'un évènement.
Quantité d'info (moyenne) apportée par une v.a.
Quantité d'info supplémentaire apportée par la réalisation de B sachant que A est réalisée.
Cela dit, si un An n'est pas A j'ai du mal à concevoir une situation où l'information apportée par A est la même que celle apportée par An.

**corentin59** · 11/12/2007, 09h36

Merci pour votre réponse.

Envoyé par Zavonen

Cela dit, si un An n'est pas A j'ai du mal à concevoir une situation où l'information apportée par A est la même que celle apportée par An.

En fait, je me suis mal exprimé. Les sous-évènements Ai sont des versions beaucoup plus détaillées de l'évènement A. Or, si je peux estimer p(X|A) sur mes données, l'estimation des p(X|Ai) est plus délicate car les données sont beaucoup moins nombreuses pour chacun des Ai (il y en a plus de 1000). L'estimation de p(X|Ai) se fait donc par adaptation bayésienne à partir de p(X|A). Dans le cas où le nombre de données pour un Ai est trop faible, il n'y a alors pratiquement pas de différences entre p(X|Ai) et p(X|A). Mon problème est donc de quantifier cette notion de "pratiquement pas de différences" entre deux distributions discrètes afin de regrouper les sous-évènements proches de p(X|A) selon ce critère.

**Zavonen** · 11/12/2007, 11h00

Je connais les probabilités p(X|A) (ie n valeurs positives dont la sommes est un) où A est un évènement.

Il y a un problème de langage, de notations.
P(X|A) est reservé à la probabilité de l'évènement X sachant l'évènement A réalisé (formule classique).
Ce que tu connais, compte tenu des précisions que tu apportes, c'est LA LOI DE LA RESTRICTION DE X à A.
Excuse moi d'être un peu formaliste mais le langage (en particulier scientifique) a été inventé pour qu'on se comprenne.
Donc ta fonction X peut prendre n valeurs X1, X2, X3,.....,Xn et cela A PRIORI sur chacune des parties A de l'univers U considéré.
Cela dit il peut arriver que sur une partie A particulière X ne prenne qu'une seule valeur, dans ce cas l'information apportée par X sachant l'évènement A réalisé est nulle, à l'inverse il peut arriver que sur A toutes les n valeurs soient également (avec la même probabilité) possibles, dans ce cas l'information apportée par X sachant A est log2(n) (mesure de Shannon) et ce sont là les deux cas extrêmes.
Tu peux, par exemple consulter le Wiki, pour un rappel des formules de la quantité d'info apportée par une v.a., si tu ne trouves pas ou si tu ne comprends pas bien je t'apporterai des précisions.
Tu peux donc faire les calculs:
I(X|A) Information apportée par X sachant A réalisé

I(X|A) se calcule comme suit:
Appelons Ai le sous-ensemble de A formé des éléments dont le X est Xi.
la formule est:
somme pour i=1 à n de log2(1/P(Ai))*P(Ai)
Notons bien que les Ai ici ne sont pas les tiens mais je ne sais pas comment les nommer.
C'est une formule générale.
Tu peux donc faire ce calcul pour chaque évènement A et pour chacun de ses sous-évènements Aj (les tiens cette fois).
Tu as donc une mesure quantitative à partir de laquelle tu peux faire des regroupements, comme bon te semble.

**pseudocode** · 11/12/2007, 11h03

Envoyé par corentin59

Mon problème est donc de quantifier cette notion de "pratiquement pas de différences" entre deux distributions discrètes afin de regrouper les sous-évènements proches de p(X|A) selon ce critère.

C'est pas tout simplement l'information mutuelle ?

**corentin59** · 11/12/2007, 11h27

Merci pour cette réponse.

Envoyé par Zavonen

Appelons Ai le sous-ensemble de A formé des éléments dont le X est Xi.
la formule est:
somme pour i=1 à n de log2(1/P(Ai))*P(Ai)
Notons bien que les Ai ici ne sont pas les tiens mais je ne sais pas comment les nommer.

Est-ce que, dans la formule, ce que vous notez P(Ai) correspond à P(X=Xi|A) ? si c'est non, je ne comprend pas ce qu'est P(Ai) ?

**Zavonen** · 11/12/2007, 12h25

Est-ce que, dans la formule, ce que vous notez P(Ai) correspond à P(X=Xi|A) ? si c'est non, je ne comprend pas ce qu'est P(Ai) ?

Non c'est P((X=Xi)interA), l'un découle de l'autre par la formule usuelle impliquant P(A)

**corentin59** · 11/12/2007, 14h02

bon, changeons un peu la modélisation en "remontant tout d'un cran" : on a la distribution discrète p(X) (n valeurs) et une partition de l'univers (Ai)i=1...m telle que l'union de tous les Ai soit l'univers (les Ai sont disjoints deux à deux).

Je calcule les m distributions discrètes p(X|Ai) (à n valeurs) par adaptation bayésienne en initialisant avec les valeurs de p(X).

soit H l'entropie de Shannon de la distribution p(X) et Hi, i=1...m, celle de la distribution p(X|Ai). L'entropie mesure la quantité d'information moyenne d'une distribution, je fais donc le raisonnement suivant pour faire mes regroupements :

initialisation : B=vide
pour i=1 à m
si Hi >= f(H), alors je conserve la partition Ai
sinon, B=union(B,Ai)

où f peut être une fonction linéaire ou alors plus compliquée.

Ai-je la bonne approche ?

**pseudocode** · 11/12/2007, 14h22

Envoyé par corentin59

soit H l'entropie de Shannon de la distribution p(X) et Hi, i=1...m, celle de la distribution p(X|Ai). L'entropie mesure la quantité d'information moyenne d'une distribution

Ah... je savais bien qu'on arriverai a l'information mutuelle.

Envoyé par corentin59

initialisation : B=vide
pour i=1 à m
si Hi >= f(H), alors je conserve la partition Ai
sinon, B=union(B,Ai)

où f peut être une fonction linéaire ou alors plus compliquée.

Ai-je la bonne approche ?

L'approche me parrait plutot bonne. Mais ca n'engage que moi.

**Zavonen** · 11/12/2007, 14h31

Je comprends tout à fait les 3 premiers paragraphes .
Mais à partir de là :

initialisation : B=vide
pour i=1 à m
si Hi >= f(H), alors je conserve la partition Ai

je décroche...
Tout simplement parce que je ne comprends pas vraiment ce que tu veux faire et pourquoi.
A la fin du processus B sera une partie de A réunion de certains Ai. Quelles seront ses propriétés, à quoi servira-t-elle?
En outre Ai n'est pas une partition,mais une partie de l'univers (un évènement) , membre d'une collection qui est elle-même une partition.

**pseudocode** · 11/12/2007, 14h53

Envoyé par Zavonen

je décroche...
Tout simplement parce que je ne comprends pas vraiment ce que tu veux faire et pourquoi.

Je pense qu'il veut faire du clustering, façon CAG.

**corentin59** · 11/12/2007, 15h05

La partition Ai dont je parle depuis le début est ce que l'on pourrait dire la partition la plus détaillée que je puisse avoir.

J'estime les p(X|Ai) par adaptation bayésienne à partir de p(X)

Le problème c'est que, pour certain Ai, je n'ai pas suffisamment de données pour apprendre correctement p(X|Ai), et dans ce cas p(X|Ai) sera très proche de p(X) (c'est le principe même de l'adaptation).

Ce que je veux c'est définir une partition de l'univers qui soit intermédiaire entre "pas de partition" et la partition Ai. Pour cela, je conserve les parties Ai qui apportent de l'information par rapport à "pas de partition" (ie Hi >= H) et je regroupe toutes les autres dans une partie que j'appelle B. Du coup, je devrais avoir beaucoup plus de données pour apprendre p(X|B) et mon estimation aura un sens.

**corentin59** · 11/12/2007, 15h05

Envoyé par pseudocode

Je pense qu'il veut faire du clustering, façon CAG.

CAG ?

**pseudocode** · 11/12/2007, 15h07

Envoyé par corentin59

CAG ?

CAG = clustered aggregation = Regroupement de partitions

Explications disponibles sur

(click-me)

**Zavonen** · 11/12/2007, 15h19

je n'ai pas suffisamment de données pour apprendre correctement p(X|Ai)

Cela devient un peu plus clair, mais j'ai toujours des problèmes avec la terminologie.
Que signifie ici 'apprendre' ???

**corentin59** · 11/12/2007, 15h24

Envoyé par Zavonen

Cela devient un peu plus clair, mais j'ai toujours des problèmes avec la terminologie.
Que signifie ici 'apprendre' ???

et bien que les valeurs des distributions sont estimées par apprentissage c'est-à-dire par optimisation d'un certain critère qui prend en compte les données et un terme de régularisation pour ne pas faire de sur-apprentissage.

**Zavonen** · 11/12/2007, 16h32

et bien que les valeurs des distributions sont estimées par apprentissage c'est-à-dire par optimisation d'un certain critère qui prend en compte les données et un terme de régularisation pour ne pas faire de sur-apprentissage.

Bon, j'arrête là, c'est trop fort ou trop obscur pour moi.

**corentin59** · 12/12/2007, 15h34

Envoyé par pseudocode

Ah... je savais bien qu'on arriverai a l'information mutuelle.

L'approche me parrait plutot bonne. Mais ca n'engage que moi.

en fait, j'ai un peu de mal à calculer l'information mutuelle entre les distributions p(X) et p(X|Ai), pour un i donné

**pseudocode** · 12/12/2007, 16h15

Envoyé par corentin59

en fait, j'ai un peu de mal à calculer l'information mutuelle entre les distributions p(X) et p(X|Ai), pour un i donné

a priori je dirais:

I(X,X|Ai) = Somme{ p(X)*log2(1/p(X)) } - Somme{ p(X|Ai)*log2(1/p(X|Ai)) }

**corentin59** · 12/12/2007, 17h04

Envoyé par pseudocode

a priori je dirais:

I(X,X|Ai) = Somme{ p(X)*log2(1/p(X)) } - Somme{ p(X|Ai)*log2(1/p(X|Ai)) }

Oui, mais avec cette formule, l'information mutuelle n'est pas forcement positive (http://fr.wikipedia.org/wiki/Information_mutuelle).

regroupement et probabilité

Probabilités

Discussions similaires

Partager

Partager