IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Probabilités Discussion :

regroupement et probabilité


Sujet :

Probabilités

  1. #1
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut regroupement et probabilité
    Bonjour

    voici mon problème. J'ai une variable aléatoire discrete X pouvant prendre n valeurs. Je connais les probabilités p(X|A) (ie n valeurs positives dont la sommes est un) où A est un évènement.

    Cet évènement A peut être découpé en m sous-évènements Ai, i=1...m. Je connais aussi les distributions p(X|Ai) (toujours n valeurs...). Considérer un sous-évènement Ai au lieu de l'évènement A peut apporter quelque chose ou alors ne servir à rien (l'information apportée par Ai est la même que celle apportée par A).

    Ma question est la suivante : je voudrais faire des regroupements de sous-évènements en mettant ensemble ceux qui n'apportent rien par rapport au cas général et en ne gardant que ceux qui peuvent apporter quelquechose. Pour faire ce regroupement, j'ai pensé à me baser sur l'information mutuelle mais je ne sais pas comment l'utiliser dans ce cas.

    Merci de vos lumières

  2. #2
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    Je ne peux que te conseiller de consulter les bases de la théorie de l'information de Shannon (c'était autrefois ma spécialité).
    Il faut connaître les notions suivantes:
    Quantité d'information apportée par la réalisation d'un évènement.
    Quantité d'info (moyenne) apportée par une v.a.
    Quantité d'info supplémentaire apportée par la réalisation de B sachant que A est réalisée.
    Cela dit, si un An n'est pas A j'ai du mal à concevoir une situation où l'information apportée par A est la même que celle apportée par An.
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  3. #3
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut
    Merci pour votre réponse.

    Citation Envoyé par Zavonen Voir le message
    Cela dit, si un An n'est pas A j'ai du mal à concevoir une situation où l'information apportée par A est la même que celle apportée par An.
    En fait, je me suis mal exprimé. Les sous-évènements Ai sont des versions beaucoup plus détaillées de l'évènement A. Or, si je peux estimer p(X|A) sur mes données, l'estimation des p(X|Ai) est plus délicate car les données sont beaucoup moins nombreuses pour chacun des Ai (il y en a plus de 1000). L'estimation de p(X|Ai) se fait donc par adaptation bayésienne à partir de p(X|A). Dans le cas où le nombre de données pour un Ai est trop faible, il n'y a alors pratiquement pas de différences entre p(X|Ai) et p(X|A). Mon problème est donc de quantifier cette notion de "pratiquement pas de différences" entre deux distributions discrètes afin de regrouper les sous-évènements proches de p(X|A) selon ce critère.

  4. #4
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    Je connais les probabilités p(X|A) (ie n valeurs positives dont la sommes est un) où A est un évènement.
    Il y a un problème de langage, de notations.
    P(X|A) est reservé à la probabilité de l'évènement X sachant l'évènement A réalisé (formule classique).
    Ce que tu connais, compte tenu des précisions que tu apportes, c'est LA LOI DE LA RESTRICTION DE X à A.
    Excuse moi d'être un peu formaliste mais le langage (en particulier scientifique) a été inventé pour qu'on se comprenne.
    Donc ta fonction X peut prendre n valeurs X1, X2, X3,.....,Xn et cela A PRIORI sur chacune des parties A de l'univers U considéré.
    Cela dit il peut arriver que sur une partie A particulière X ne prenne qu'une seule valeur, dans ce cas l'information apportée par X sachant l'évènement A réalisé est nulle, à l'inverse il peut arriver que sur A toutes les n valeurs soient également (avec la même probabilité) possibles, dans ce cas l'information apportée par X sachant A est log2(n) (mesure de Shannon) et ce sont là les deux cas extrêmes.
    Tu peux, par exemple consulter le Wiki, pour un rappel des formules de la quantité d'info apportée par une v.a., si tu ne trouves pas ou si tu ne comprends pas bien je t'apporterai des précisions.
    Tu peux donc faire les calculs:
    I(X|A) Information apportée par X sachant A réalisé

    I(X|A) se calcule comme suit:
    Appelons Ai le sous-ensemble de A formé des éléments dont le X est Xi.
    la formule est:
    somme pour i=1 à n de log2(1/P(Ai))*P(Ai)
    Notons bien que les Ai ici ne sont pas les tiens mais je ne sais pas comment les nommer.
    C'est une formule générale.
    Tu peux donc faire ce calcul pour chaque évènement A et pour chacun de ses sous-évènements Aj (les tiens cette fois).
    Tu as donc une mesure quantitative à partir de laquelle tu peux faire des regroupements, comme bon te semble.
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  5. #5
    Rédacteur
    Avatar de pseudocode
    Homme Profil pro
    Architecte système
    Inscrit en
    Décembre 2006
    Messages
    10 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Architecte système
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2006
    Messages : 10 062
    Points : 16 081
    Points
    16 081
    Par défaut
    Citation Envoyé par corentin59 Voir le message
    Mon problème est donc de quantifier cette notion de "pratiquement pas de différences" entre deux distributions discrètes afin de regrouper les sous-évènements proches de p(X|A) selon ce critère.
    C'est pas tout simplement l'information mutuelle ?
    ALGORITHME (n.m.): Méthode complexe de résolution d'un problème simple.

  6. #6
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut
    Merci pour cette réponse.

    Citation Envoyé par Zavonen Voir le message
    Appelons Ai le sous-ensemble de A formé des éléments dont le X est Xi.
    la formule est:
    somme pour i=1 à n de log2(1/P(Ai))*P(Ai)
    Notons bien que les Ai ici ne sont pas les tiens mais je ne sais pas comment les nommer.
    Est-ce que, dans la formule, ce que vous notez P(Ai) correspond à P(X=Xi|A) ? si c'est non, je ne comprend pas ce qu'est P(Ai) ?

  7. #7
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    Est-ce que, dans la formule, ce que vous notez P(Ai) correspond à P(X=Xi|A) ? si c'est non, je ne comprend pas ce qu'est P(Ai) ?
    Non c'est P((X=Xi)interA), l'un découle de l'autre par la formule usuelle impliquant P(A)
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  8. #8
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut
    bon, changeons un peu la modélisation en "remontant tout d'un cran" : on a la distribution discrète p(X) (n valeurs) et une partition de l'univers (Ai)i=1...m telle que l'union de tous les Ai soit l'univers (les Ai sont disjoints deux à deux).

    Je calcule les m distributions discrètes p(X|Ai) (à n valeurs) par adaptation bayésienne en initialisant avec les valeurs de p(X).

    soit H l'entropie de Shannon de la distribution p(X) et Hi, i=1...m, celle de la distribution p(X|Ai). L'entropie mesure la quantité d'information moyenne d'une distribution, je fais donc le raisonnement suivant pour faire mes regroupements :

    initialisation : B=vide
    pour i=1 à m
    si Hi >= f(H), alors je conserve la partition Ai
    sinon, B=union(B,Ai)

    où f peut être une fonction linéaire ou alors plus compliquée.

    Ai-je la bonne approche ?

  9. #9
    Rédacteur
    Avatar de pseudocode
    Homme Profil pro
    Architecte système
    Inscrit en
    Décembre 2006
    Messages
    10 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Architecte système
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2006
    Messages : 10 062
    Points : 16 081
    Points
    16 081
    Par défaut
    Citation Envoyé par corentin59 Voir le message
    soit H l'entropie de Shannon de la distribution p(X) et Hi, i=1...m, celle de la distribution p(X|Ai). L'entropie mesure la quantité d'information moyenne d'une distribution
    Ah... je savais bien qu'on arriverai a l'information mutuelle.

    Citation Envoyé par corentin59 Voir le message
    initialisation : B=vide
    pour i=1 à m
    si Hi >= f(H), alors je conserve la partition Ai
    sinon, B=union(B,Ai)

    où f peut être une fonction linéaire ou alors plus compliquée.

    Ai-je la bonne approche ?
    L'approche me parrait plutot bonne. Mais ca n'engage que moi.
    ALGORITHME (n.m.): Méthode complexe de résolution d'un problème simple.

  10. #10
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    Je comprends tout à fait les 3 premiers paragraphes .
    Mais à partir de là :
    initialisation : B=vide
    pour i=1 à m
    si Hi >= f(H), alors je conserve la partition Ai
    je décroche...
    Tout simplement parce que je ne comprends pas vraiment ce que tu veux faire et pourquoi.
    A la fin du processus B sera une partie de A réunion de certains Ai. Quelles seront ses propriétés, à quoi servira-t-elle?
    En outre Ai n'est pas une partition,mais une partie de l'univers (un évènement) , membre d'une collection qui est elle-même une partition.
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  11. #11
    Rédacteur
    Avatar de pseudocode
    Homme Profil pro
    Architecte système
    Inscrit en
    Décembre 2006
    Messages
    10 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Architecte système
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2006
    Messages : 10 062
    Points : 16 081
    Points
    16 081
    Par défaut
    Citation Envoyé par Zavonen Voir le message
    je décroche...
    Tout simplement parce que je ne comprends pas vraiment ce que tu veux faire et pourquoi.
    Je pense qu'il veut faire du clustering, façon CAG.
    ALGORITHME (n.m.): Méthode complexe de résolution d'un problème simple.

  12. #12
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut
    La partition Ai dont je parle depuis le début est ce que l'on pourrait dire la partition la plus détaillée que je puisse avoir.

    J'estime les p(X|Ai) par adaptation bayésienne à partir de p(X)

    Le problème c'est que, pour certain Ai, je n'ai pas suffisamment de données pour apprendre correctement p(X|Ai), et dans ce cas p(X|Ai) sera très proche de p(X) (c'est le principe même de l'adaptation).

    Ce que je veux c'est définir une partition de l'univers qui soit intermédiaire entre "pas de partition" et la partition Ai. Pour cela, je conserve les parties Ai qui apportent de l'information par rapport à "pas de partition" (ie Hi >= H) et je regroupe toutes les autres dans une partie que j'appelle B. Du coup, je devrais avoir beaucoup plus de données pour apprendre p(X|B) et mon estimation aura un sens.

  13. #13
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut
    Citation Envoyé par pseudocode Voir le message
    Je pense qu'il veut faire du clustering, façon CAG.
    CAG ?

  14. #14
    Rédacteur
    Avatar de pseudocode
    Homme Profil pro
    Architecte système
    Inscrit en
    Décembre 2006
    Messages
    10 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Architecte système
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2006
    Messages : 10 062
    Points : 16 081
    Points
    16 081
    Par défaut
    Citation Envoyé par corentin59 Voir le message
    CAG ?
    CAG = clustered aggregation = Regroupement de partitions

    Explications disponibles sur (click-me)
    ALGORITHME (n.m.): Méthode complexe de résolution d'un problème simple.

  15. #15
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    je n'ai pas suffisamment de données pour apprendre correctement p(X|Ai)
    Cela devient un peu plus clair, mais j'ai toujours des problèmes avec la terminologie.
    Que signifie ici 'apprendre' ???
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  16. #16
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut
    Citation Envoyé par Zavonen Voir le message
    Cela devient un peu plus clair, mais j'ai toujours des problèmes avec la terminologie.
    Que signifie ici 'apprendre' ???
    et bien que les valeurs des distributions sont estimées par apprentissage c'est-à-dire par optimisation d'un certain critère qui prend en compte les données et un terme de régularisation pour ne pas faire de sur-apprentissage.

  17. #17
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 76
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Points : 1 913
    Points
    1 913
    Par défaut
    et bien que les valeurs des distributions sont estimées par apprentissage c'est-à-dire par optimisation d'un certain critère qui prend en compte les données et un terme de régularisation pour ne pas faire de sur-apprentissage.
    Bon, j'arrête là, c'est trop fort ou trop obscur pour moi.
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  18. #18
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut
    Citation Envoyé par pseudocode Voir le message
    Ah... je savais bien qu'on arriverai a l'information mutuelle.



    L'approche me parrait plutot bonne. Mais ca n'engage que moi.
    en fait, j'ai un peu de mal à calculer l'information mutuelle entre les distributions p(X) et p(X|Ai), pour un i donné

  19. #19
    Rédacteur
    Avatar de pseudocode
    Homme Profil pro
    Architecte système
    Inscrit en
    Décembre 2006
    Messages
    10 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Architecte système
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2006
    Messages : 10 062
    Points : 16 081
    Points
    16 081
    Par défaut
    Citation Envoyé par corentin59 Voir le message
    en fait, j'ai un peu de mal à calculer l'information mutuelle entre les distributions p(X) et p(X|Ai), pour un i donné
    a priori je dirais:

    I(X,X|Ai) = Somme{ p(X)*log2(1/p(X)) } - Somme{ p(X|Ai)*log2(1/p(X|Ai)) }
    ALGORITHME (n.m.): Méthode complexe de résolution d'un problème simple.

  20. #20
    Membre averti Avatar de corentin59
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    462
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 462
    Points : 441
    Points
    441
    Par défaut
    Citation Envoyé par pseudocode Voir le message
    a priori je dirais:

    I(X,X|Ai) = Somme{ p(X)*log2(1/p(X)) } - Somme{ p(X|Ai)*log2(1/p(X|Ai)) }
    Oui, mais avec cette formule, l'information mutuelle n'est pas forcement positive (http://fr.wikipedia.org/wiki/Information_mutuelle).

Discussions similaires

  1. Regroupement d'enregistrements en ASP/SQL Server
    Par Matlight dans le forum ASP
    Réponses: 3
    Dernier message: 02/04/2004, 13h31
  2. Comment regrouper les 3requêtes SQL?
    Par SkyDev dans le forum Langage SQL
    Réponses: 16
    Dernier message: 06/03/2004, 13h02
  3. Regroupement par mois
    Par fplanglois dans le forum SQL
    Réponses: 7
    Dernier message: 29/07/2003, 16h32
  4. Regrouper 3 requêtes dans une seule
    Par LadyArwen dans le forum Langage SQL
    Réponses: 4
    Dernier message: 21/06/2003, 09h32
  5. regrouper deux tables
    Par Shabata dans le forum Langage SQL
    Réponses: 4
    Dernier message: 19/05/2003, 15h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo