IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Excel Discussion :

Modélisation à partir de distributions fréquentielles


Sujet :

Excel

  1. #21
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    Citation Envoyé par HAL-9000 Voir le message
    Attention, comme dans ton classeur y'a plein de colonnes ici et la, j'ai pas effectué de régression de telle colonne sur telle colonne (car je ne sais pas quel échantillon est la variable exogène, quel échantillon la variable endogène...)
    Bonjour,

    Là j'avoue je n'ai pas compris ce que tu veux dire concrètement par variable endo/exogène ?
    Si tu veux dire que pour une distrib donnée, quelle colonne corresponds aux données et laquelle aux fréquences associées, pour la 1ére par exemple, c'est de 92 à 147 en colonne E, la colonne just a droite de celle ci sont les fréquences. La colonne a gauche des données est le pDIF.

    Sinon ok c'est un peu plus clair concernant la modélisation (encore faut-il que je l'applique correctement à toutes mes distribs), mais bon je garde à l'esprit que tu n'a pris que la 1ère colonne de données comme exemple.
    Or cette distrib n'a rien de particlier de décelable de visu.
    Je crois que si tu avais pris la colonne juste en dessous par exemple (coups critiques), ou les dernières qui présentent des pics fréquentiels très prononcés, ce ne serait peut être pas aussi "simple" ?

    Edit: petite question vite fait: avec ton exemple de modèle expliqué au dessus, je l'ai reformulé comme cela :
    (Obs - cste)/Coef = [Aléa(i-1) + Aléa(i)]
    La partie à droite de cette équation est donc bien la partie aléatoire "dépouillée" de toute variable d'influence ? Ma question est donc cette partie aléatoire doit-elle avoir nécessairement une largeur constante (autour de 1) ? (Cette question est en fait la même que mon post précédent)

  2. #22
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    (Obs - cste)/Coef = [Aléa(i-1) + Aléa(i)] est un résultat faux.

    Tu as :
    Obs(i) - cste = Coef * Aléa(i-1) + Aléa(i)

    et donc :
    (Obs(i) - cste)/Coef = [Aléa(i-1) + Aléa(i)/Coef]

    Ma question est donc cette partie aléatoire doit-elle avoir nécessairement une largeur constante (autour de 1) ?
    Non pas nécessairement. Pourquoi vouloir absolument réduire la variance à l'unité ? Ce qu'on appelle aléatoire en modélisation c'est ce que l'on nomme Bruit blanc (faible ou fort, selon le cas). Un bruit blanc (B(i)) est définit par :

    - E[B(i)] = 0 pour tout i.
    - Variance[B(i)] = cste, cste indépendante de i (et pas forçément égale à 1).
    - Covariance [B(i), B(i+k)] = 0 pour tout k différent de 0.


    Regarde ici :
    http://fr.wikipedia.org/wiki/Bruit_blanc

    Attention, le but d'une modélisation et de ne pas chercher en premier lieu la partie aléatoire ! Le but premier et de determiner la partie deterministe de tes observations. Après on s'aperçoit en général que notre partie déterministe ne suffita pas à elle seule pour expliquer les observations, d'ou l'ajout d'un bruit (en théorie du signal le bruit correspond au interférences d'un signal, interférences qui s'ajoutent au fait de résistance de fils, etc. etc.). Le soucis et alors de pouvoir simuler ce bruit, d'ou le fait de chercher une loi de probabilité qui puissent rendre compte de ce bruit.
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  3. #23
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    A oui pardon me suis trompé pour le coef mais bon c'était pour avoir un exemple à t'expliquer ce que je cherchait à faire.

    Ci-joint un screenshot de ce que j'ai obtenu comme j'ai expliqué hier.
    En fait je cherchait à "isoler" la partie aléatoire de toutes mes distribs, de façon à pouvoir l'étudier par la suite en utilisant tes explications.
    La "largeur" dont je parlait est la distance entre les valeurs min et max, pas la variance. Là sur le screenshot, on dirait qu'elle est constante, mais en fait sur les graphes des distribs + bas, certaines sont bien + larges (barres verticales bleues).

    Normalement, si j'ai bien compris le principe d'étude d'un aléa inconnu, il faut à la base que cet aléa à modèliser soit indépendant des variables explicatives ?

  4. #24
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    bug
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  5. #25
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    réduire la distance Max-Min n'a aucune utilité.

    Normalement, si j'ai bien compris le principe d'étude d'un aléa inconnu, il faut à la base que cet aléa à modèliser soit indépendant des variables explicatives ?
    Oui

    Je vais essayer de faire simple, par un exemple :
    Suppose que tu veuilles modéliser les chiffres du chomage de tel pays sur la période d'un an (données mensuelles). Voici les données dont on dispose :
    Janvier - 120 chômeurs
    Février - 158 chômeurs
    Mars - 101 chômeurs
    Avril - 82 chômeurs
    Mai - 125 chômeurs
    Juin - 111 chômeurs
    Juillet - 122 chômeurs
    Aout - 105 chômeurs
    Septembre - 89 chômeurs
    Octobre - 81 chômeurs
    Novembre - 78 chômeurs
    Décembre - 88 chômeurs

    Donc je suppose que la variable "nombre de demandeurs d'emplois" influe sur les chiffres du chomage, donc je pense à un modèle de régression de la forme :

    chiffres du chomage(Mois) = nombre de demandeurs d'emplois(Mois) + autre chose peut-être.

    Voici les valeurs du nombre de demandeurs d'emplois :
    Janvier - 110
    Février - 108
    Mars - 88
    Avril - 81
    Mai - 120
    Juin - 104
    Juillet - 118
    Aout - 101
    Septembre - 88
    Octobre - 75
    Novembre - 74
    Décembre - 84

    On remarque alors que d'après notre modèle sur le premier mois :
    120 = 110 + 10.
    Puis sur le second :
    158 = 108 + 50
    etc.
    Or selon nous la seule cose qui explique l'écart entre les chiffres du chomage et le nombre de demandeurs d'emplois c'est que certaines personnes chomeuses ne s'inscrivent pas comme demandeur d'emploi, ou oubli un tel mois, puis s'inscrivent l'autre, puis oublient à nouveau d'actualiser leur demande, etc. Cette incertitude (+10, +50, ...) peut surement être modélisable par un aléa... Il faut alors regarder si la suite (+10, +50, ...) est un bruit blanc. si c'est le cas, on pourra alors simuler l'incertitude liée aux personnes chomeuses ne s'inscrivent pas comme demandeur d'emploi, ou oubli un tel mois, puis s'inscrivent l'autre, puis oublient à nouveau d'actualiser leur demande, etc. via un aléa qui changera chaque mois...


    Pas sur d'être compréhensible là... si ?
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  6. #26
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    Ok merci pour la confirmation que je ne me trompais pas sur le principe. Donc pour "isoler" la partie aléatoire de mes distribs, j'ai donc "sorti" mes variables explicatives supposées selon l'équation expliquée hier.
    L'utilité de la "largeur" dont je parlait (et du "centrage") est de me prouver que j'ai correctement isolé la partie aléatoire. Si cette partie aléatoire (après "réduction") varie encore en faisant varier une seule de ces variables, c'est que je n'ai pas bien isolé ?
    Du coup, je ne peux même pas commencer à étudier cet aléa en suivant ta méthode...

    Le screenshot ci dessus montre que les distribs "réduites" sont bien centrées sur la même valeur (1) ET ont une largeur a peu près identique, cela pour 3 valeurs de Ratio différentes (1 des variables explicatives). Malheureusement pour d'autre distribs (valeur de dommage de l'arme différente et Ratio encore + faible), la largeur est + large... Donc je ne peux pas me servir de ces distribs "réduites" pour commencer à modéliser...

  7. #27
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    L'utilité de la "largeur" dont je parlait (et du "centrage") est de me prouver que j'ai correctement isolé la partie aléatoire. Si cette partie aléatoire (après "réduction") varie encore en faisant varier une seule de ces variables, c'est que je n'ai pas bien isolé ?
    .

    Mais cette partie aléatoire doit varier justement, contrairement à la partie déterministe. Dans mon dernier exemple, mon aléa sur ma première observation vaut 10, alors que sur la seconde il vaut 50. Par contre j'ai toujours ma partie déterministe connu, a savoir le nombre de demandeurs d'emplois.

    Maintenant si je suppose non pas un modèle du genre :
    chiffres du chomage(Mois) = nombre de demandeurs d'emplois(Mois) + autre chose peut-être.

    Mais :
    chiffres du chomage(Mois) = 2 * nombre de demandeurs d'emplois(Mois) + autre chose peut-être.

    alors les aléas isolés sont ce coup-ci : -100, -58, etc.

    Tes aléas vont dépendre de ta partie deterministe, c'est pourquoi il faut s'assurer de la validiter de la partie deterministe avant de s'attaquer aux aléas . Si ta partie déterministe est statistiquement bonne, alors tu auras forçément les bons aléas avec
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  8. #28
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    Citation Envoyé par HAL-9000 Voir le message
    .
    Tes aléas vont dépendre de ta partie deterministe, c'est pourquoi il faut s'assurer de la validiter de la partie deterministe avant de s'attaquer aux aléas . Si ta partie déterministe est statistiquement bonne, alors tu auras forçément les bons aléas avec
    On est d'accord

    Mais alors si la largeur n'est pas un critère pour affirmer que "Si ta partie déterministe est statistiquement bonne", serais-tu en train de me dire que je peux commencer à étudier avec ces distribs "réduites" que j'ai fait hier ?
    Honnetement quand je vois visuellement que changer d'arme fait varier cet aléa, je ne le qualifierait pas d' "indépendant" :s
    Dans ton exemple si tu recevait de nouveaux chiffres mensuels du chômage, avec les nouveaux chiffres de demandeurs d'emploi ET de ceux qui ont foiré leur inscription, et que tu t'apercevais en comparant avec les chiffres que tu avais pour le mois dernier qu'une variation du nombre de personnes ayant foiré leur inscrition donne un aléa completement différent de celui que tu avais modélisé pour le mois dernier... Conclusion : "Mince le nbre de personnes ayant foiré leur inscription est donc une variable explicative que j'ai oublié de tenir compte"
    Je me trompe ?
    Si non, ben je risque de passer quelques jours à bidouiller mes distribs de façon à ce quelles soient indépendantes des variables explicatives que j'ai défini, avant de commencer à modéliser :/

  9. #29
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    Dans ton exemple si tu recevait de nouveaux chiffres mensuels du chômage, avec les nouveaux chiffres de demandeurs d'emploi ET de ceux qui ont foiré leur inscription, et que tu t'apercevais en comparant avec les chiffres que tu avais pour le mois dernier qu'une variation du nombre de personnes ayant foiré leur inscrition donne un aléa completement différent de celui que tu avais modélisé pour le mois dernier... Conclusion : "Mince le nbre de personnes ayant foiré leur inscription est donc une variable explicative que j'ai oublié de tenir compte"
    Plusieurs scénarii :
    1/. Rien ne m'empêche de considerer mon modèle :
    Chiffres du Chomage(Mois) = Nombre de Demandeurs d'Emploi(Mois) + Aléa.
    et de considérer un second, à savoir :
    Chiffres du Chomage(Mois) = Nombre de Demandeurs d'Emploi(Mois) + Recensement des Chomeurs qui ont eu un problème d'inscription(Mois) + Aléa.

    Mais alors sur un critère de comparaison de mes deux modèles (critère d'Akaike, de Schwartz, etc.) j'aurais été en mesure de choisir le modèle le plus adéquat.

    2/. En considérant le modèle :
    Chiffres du Chomage(Mois) = Nombre de Demandeurs d'Emploi(Mois) + Aléa.
    je me serais rendu compte à travers l'étude de la partie Aléa que celle-ci n'en est pas un (autocorrélation dans les soit-disant aléas). A ce moment là je sais que mes aléas n'en sont pas et que par conséquent ma partie déterministe est incomplète .

    3/. En considérant le modèle :
    Chiffres du Chomage(Mois) = Nombre de Demandeurs d'Emploi(Mois) + Aléa.
    Le R2 estimé est pas très significatif, donc je me tourne vers 1/.

    4/. En considérant le modèle :
    Chiffres du Chomage(Mois) = Nombre de Demandeurs d'Emploi(Mois) + Aléa.
    J'obtient un bon R2, les aléas sont biens iid, tout est nickel. Conclusion, je suis en mesure, à travers ce modèle de reproduire les observations du nombre de chomeurs. Mais il n'existe pas qu'un seul modèle qui puisse reproduire les observations du nombre de chomeurs. Il existe surement plusieurs modèles en capacité de reproduire de telles observations (partie 1/.) mais moi, j'en connaît un qui est validé par la théorie statistique et qui marche .

    Il n'existe pas de vérité absolue dans ce bas monde...
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  10. #30
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    Ben justement, je suis persuadé d'être dans le scénario 2/ pour 90% de mes distribs...
    La distrib que tu a pris comme exemple (1ère colonne) je viens de vérifier a été en fait réalisée dans des conditions extrêmes (Ratio elevé). Or (tu ne le savais pas) l'éditeur du jeu utilise des valeurs constantes externes à l'équation que nous joueurs appelons des "caps". Il s'agit d'une valeur seuil pour le Ratio au dessus duquel toutes les dommages min et max sont cappés a une valeur fixe.
    Du coup, pas étonnant que tu ait trouvé aucune corrélation, une moyenne constante, etc...

    Bref, tu ne le savais pas, ok autant pour moi. Donc si j'ai bien compris maintenant, il va falloir que je teste plein plein plein d'équations possibles et imaginables entre mes variables explicatives Ratio, fSTR et WD pendant plusieurs jours... jusqu'à enfin coup de chance trouver une qui fasse que mes aléas soient indépendants...

    Pour l'instant, celles que j'ai déjà testées sont:
    D = Aléa x (WD + fSTR) <- Aléa corrélé (position changeant avec valeur de Ratio)
    D = Aléa x Ratio*(fSTR+WD) <- Aléa corrélé aussi (position constante centrée mais largeur variant avec WD)

    Bon... je reposterai peut être demain si j'ai de la chance ou dans 3 mois...

  11. #31
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    Tu oublies une donnée essentielle dans ton raisonnement : l'importance de l'ordre de tes observations. Ici coup1, coup2, coup3... l'ordre des coups influe sur les valeurs obtenues ; tu peux faire une analogie avec les séries temporelles.
    http://www.invs.sante.fr/publication...s/sommaire.htm

    (je te donne une grosse piste là)
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  12. #32
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    Je ne comprends pas du tout en quoi l'ordre des mesures peut-elle influer sur les valeurs de ces mêmes mesures

    D'autant plus que justement j'ai "regroupé" ces mesures sous forme de distributions fréquentielles pour m'affranchir de la notion de temps et surtout de comptage de valeurs répétées...

    Dans mon exemple avec ce jeu, les valeurs de dommages ne diminuent pas ni augmentent avec le temps (enfin personne ne l'a remarqué depuis 5 ans que ce jeu existe, et moi aussi je m'en serait aperçu durant mes tests je pense).

    S'il s'agissait d'un processus industriel sujet à l'usure machines, fatigue des opérateurs, ... là d'accord.

    Bon je suis à la page5 du pdf de ton lien (Merci au fait ), peut être je verrai ce que tu as voulu dire mais a priori je vois pas le rapport du tout...

  13. #33
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut


    Je faisais allusion au fait que d'infliger 20 de dammage au premier coup, puis 23 au second ,puis 29 au troisième (par exemple) n'est peut-être pas un hasard justement. C'est parce que tu as eu 20 au premier coup que tu as obtenu 23 au second, et pas 1. De façon globale, soit tu considères ta suite de coups (coup, coup, coup, coup, ..., coup) ou bien l'indexation de tes coups relève une importance (coup1, coup2, coup3, coup4, ..., coup55).

    A ce moment là tu peux très bien expliquer la valeur du coup2 en fonction de la valeur du coup1...

    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  14. #34
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    Citation Envoyé par HAL-9000 Voir le message
    A ce moment là tu peux très bien expliquer la valeur du coup2 en fonction de la valeur du coup1...
    C'est ce que j'avais compris aussi où tu voulais en venir, mais en fait je sais pertinemment que ce processus en particulier n'a absolument aucun lien entre coups.
    Quasiment tous les joueurs de ce jeu (moi compris) sont persuadés que chaque coup est calculé en temps réel uniquement en fonction de paramètres propres au joueur, au monstre, et à une fameuse équation de damage à déterminer. C'est aussi simple que cela.

    EDIT: d'ailleurs en parlant de ça, je me souviens avoir fait 2 parses, à 2 semaines d'intervalle, dans exactement les mêmes conditions sauf que le 1er avait 1524hits et le 2e 1341hits. Le constat était sans appel : moyenne identique à 99% de confidence, et les dommages min/max pour les coups normaux et critiques étaient quasi identiques. J'ai fini par fusionner ces 2 parses.

    (PDF page18 ... )

  15. #35
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    Bon alors dans ce cas, pas de relation temporelle, c'est TRES SIMPLE.
    Tu pars de ta première équation :

    D = pDIF * BD

    tu as D = (valeur1, ..., valeur55), ainsi que BD = cste (c'est bien ça ?).
    Etudie alors pDIF = D/BD = (valeur1/BD, ..., valeur55/BD).
    1./ Fait in test du Chi-Deux pour tester l'indépendance de ta variable pDIF (etudie la dépendance entre les valeurs/BD). Si ton test te dit que c'est indépendant, alors plus qu'a trouver la loi de probabilité qui puisse modéliser pDIF.

    Simple non ?
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  16. #36
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    Voilà c'est exactement ça que je cherchait à faire. Simple à priori, mais en pratique qu'il y a encore des tendances qui apparaissent entre les différentes distributions...
    Donc ce que je cherche à faire maintenant c'est de savoir de quelle(s) variable(s) dépende(nt) ces tendances.
    Les graphes que tu vois dans le xls en lien dans le post principal ont été fait comme tu as dit : valeurs mesurées/BD. On y voyait une tendance a peu près linéaire entre les distributions, visiblement en fonction Ratio.
    Donc hier j'ai refait ces distributions cette fois avec: valeurs mesurées / (BD*Ratio). Presque bingo: on n'a plus de tendance en position, mais il apparait encore une tendance en largeur. Là par contre je vois pas trop quelle(s) variable(s) influe(nt) là dessus, à priori la valeur de l'arme WD peut être ?

    A oui j'oubliais aussi autre chose:
    D'après la définition de bruit blanc donnée précédemment, la moyenne du ou des aéas à étudier devrait être nulle (ou proche de 0). Ce n'est pas le cas de mes distribs / (BD*Ratio) d'hier.

  17. #37
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    Citation Envoyé par Masamunai Voir le message
    Voilà c'est exactement ça que je cherchait à faire. Simple à priori, mais en pratique qu'il y a encore des tendances qui apparaissent entre les différentes distributions...
    Donc ce que je cherche à faire maintenant c'est de savoir de quelle(s) variable(s) dépende(nt) ces tendances.
    Les graphes que tu vois dans le xls en lien dans le post principal ont été fait comme tu as dit : valeurs mesurées/BD. On y voyait une tendance a peu près linéaire entre les distributions, visiblement en fonction Ratio.
    Donc hier j'ai refait ces distributions cette fois avec: valeurs mesurées / (BD*Ratio). Presque bingo: on n'a plus de tendance en position, mais il apparait encore une tendance en largeur. Là par contre je vois pas trop quelle(s) variable(s) influe(nt) là dessus, à priori la valeur de l'arme WD peut être ?

    A oui j'oubliais aussi autre chose:
    D'après la définition de bruit blanc donnée précédemment, la moyenne du ou des aéas à étudier devrait être nulle (ou proche de 0). Ce n'est pas le cas de mes distribs / (BD*Ratio) d'hier.
    distribs / (BD*Ratio) pas centré ? pas un soucis, étudie :
    distribs / (BD*Ratio) - moyenne(distribs) et la c'est centré
    (le cste dans mon modèle correspondait à la moyenne des aléas souvient toi).

    Le principale soucis dans tes données excel c'est que la taille de tes échantillon n'est pas significative... 55 valeurs c'est trop peut pour avoir un modèle "stable". Si tu possédais des échantillons de taille x4 la on commencerai à obtenir des résultats plus affinés, avec des convergences plus visibles...
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  18. #38
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    euh il n'y a pas 55 valeurs, mais bien plus que cela: ce sont des distributions fréquentielles, pour une colonne de données mesurées, il y a une autre colonne juste à droite avec les fréquences d'apparition des chacune de ces valeurs.
    La moyenne de taille de ces distributions ont environ 1000hits (en bas de chaque distrib il y a une cellule "SUM" qui calcule la taille de l'échantillon).
    Je ne me serait même pointé ici avec des échantillons aussi peu représentatifs qu'un 50aine de valeurs/distrib.
    En revanche, je reconnait que les distributions relatives aux coups critiques sont beaucoup plus petites en taille: cela vient du fait que le jeu, juste avant de calculer le dommage d'un coup, détermine si ce sera un critique ou non, si oui, on verra des dommages "multipliés", et cela suivant une "chance de critical" d'environ 10-25%.

    Citation Envoyé par HAL
    distribs / (BD*Ratio) pas centré ? pas un soucis, étudie :
    distribs / (BD*Ratio) - moyenne(distribs) et la c'est centré
    (le cste dans mon modèle correspondait à la moyenne des aléas souvient toi).
    On ne s'est pas compris, désolé si je n'ai pas été clair:
    distribs / (BD*Ratio) me donne un centrage presque parfait sur 1 +/- largeur/2, mais largeur varie d'une distribution à la suivante en suivant une tendance apparemment fonction de WD (l'arme).
    De plus, la moyenne de ces distribs modifiées, comme on le voit sur le screenshot posté plus haut n'est pas nulle du tout, donc ces distribs ne peuvent être assimilées au bruit dont on veut modéliser.
    Je n'ai même pas calculé la corrélation vu que la condition précédente n'est pas remplie.
    Soustraire une valeur à distribs/(BD*Ratio) comme tu l'as suggéré ne fait pas un "centrage en hauteur", cela "déplace" juste la distrib sur la gauche du graphe, rien d'autre...Ce que je voulais dire, c'est 2 choses:
    - comment faire "descendre" une distrib (et non pas juste la déplacer à gauche) ? EDIT: à moins que tu parlait d'une autre "moyenne", si oui merci de préciser laquelle, moi j'avais fait avec moyenne des valeurs en dommage, pas celle en fréquences.
    - comment faire pour que les largeurs deviennent constantes ?

    Le principal souci à mon avis est d'arriver à supprimer les tendances constatées, ceci en fonction des variables explicatives WD, fSTR et Ratio.
    La moyenne je la connais pas et c'est justement l'objectif à atteindre APRES suppression des tendances constatées, puis du bruit. D'autant plus qu'à partir d'une certaine valeur de Ratio (en dessous de 1.5), les moyennes mesurées suivent une tendance linéaire completement décalée par rapport aux tendances linéaires des valeurs min/max.

  19. #39
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2009
    Messages : 134
    Points : 129
    Points
    129
    Par défaut
    Pardon mais chaque colonne est différente de l'autre
    La première tu as LVL 63 puis la seconde LVL 64, etc. Donc à qhaque fois tes échantillons sont différents car pas générés par les mêmes valeurs de param… aaaah je viens de piger ton étude.

    Tu voudrais pas exliquer tes observations selon le modèle :

    Obs = coeff*MobLVL + coeff*Attack+coeff*(Weapon+Damage)+aléa

    par hasard ?
    Au taf : Quad Core/8Go de RAM sous Win Seven 64 - Matlab 2009b 64bit.
    Perso : Core 2 Duo/8Go de RAM Mac OS X 10.6 - Matlab 2009b 64bit

  20. #40
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Août 2009
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 140
    Points : 37
    Points
    37
    Par défaut
    Eh ben.... je me doutais que mon étude ne serait pas simple à comprendre

    En effet, tu chauffe, les variables récensées qu'on a découvert au fil des ans comme influentes sur les dommages observés sont:

    STR du joueur
    VIT du monstre --> ces 2 là définies ensemble par une fonction fSTR

    Attack du joueur
    Defense du monstre -> ces 2 là définies ensemble par Ratio

    WD: puissance de l'arme du joueur, exprimée en une valeur simple de damage, simplement

    Accessoirement, la différence de niveau entre le joueur et le monstre, mais en fait j'ai simplifié le problème en réduisant cette différence de niveau à uniquement fSTR et Ratio. Les LVL63,64et65 des monstres de test "Lesser Colibris" sont en fait juste indicatifs et me permettent surtout de savoir quelle valeur de Defense et VIT utiliser (et je les connait).

    Donc je cherche au final la moyenne et les valeurs min/max de :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    Valeurs observées = fonction(Ratio, fSTR, WD, Aléa(s) )
    1 possibilité de modèle pourrait être par exemple:
    Valeurs observées = Aléa(s)*Ratio*BD = Aléa(s)*Ratio*(WD+fSTR)  <-- j'ai testé ca colle pas :cry:
    ou encore:
    Valeurs observées = Aléa(s)*BD avec Aléa(s)=a*Ratio+b avec (a,b) coefs aléatoires (c'est le modèle des japs, mais ils ont trop approximé a et b)
    ou encore comme tu propose:
    Valeurs observées = Aléa(s) + Coeff1*BD + Coeff2*Ratio
    Il faut avouer que jusque de nos jours, le modèle des japs est le seul format qu'on connaisse qui "rapproche" le mieux toute valeur min/max à une droite.
    Mais il ne rends pas compte des artefacts clairement visibles dans certaines conditions.

    Pour la moyenne, si j'ai bien compris tes explications, il me suffirait de modéliser le bruit par une loi connue puis multiplier sa moyenne par la partie déterministe de l'équation.
    De même, pour les dommages min/max, me suffirait de connaitre les bornes inf/sup du (ou des) aléa(s) de l'équation, puis de les multiplier par la partie déterministe.

    Moralité: faut arriver à "filtrer" toutes les tendances observables sur les distribs mesurées, afin d'isoler les parties aléatoires de celle déterministe.

    En termes de tests que j'ai fait, eh ben j'ai tout simplement équipé mon petit bonhomme de façon à toujours avoir la même STR, puis je l'ai sorti dehors taper dans une zone où il n'y a que des Lesser Colibris de LVL aléatoire 63, 64 ou 65, tout en ayant un logiciel tiers enregistrant les dommages affichés à l'écran. Les résultats sont ceux que tu vois dans le fichier xls, triés correctement (en fréquences, par LVL de monstre, par Attack, et par arme utilisée). Je n'ai pas fait de tests en faisant varier STR donc bon on supposera la fonction fSTR comme correcte.

    J'espère que c'est plus clair entre nous ?

Discussions similaires

  1. [OL-2007] Créer une liste de distribution à partir d'un fichier Excel
    Par Flaguette dans le forum Outlook
    Réponses: 2
    Dernier message: 04/12/2012, 19h14
  2. [Débutant] générer distribution à partir de M et V
    Par membreComplexe12 dans le forum MATLAB
    Réponses: 5
    Dernier message: 02/05/2012, 16h48
  3. Modélisation en étoile à partir de relations en 1n-1n
    Par alucardalex dans le forum Conception/Modélisation
    Réponses: 5
    Dernier message: 08/02/2011, 10h05
  4. Modéliser une distribution de Pareto
    Par enicnath dans le forum SAS STAT
    Réponses: 5
    Dernier message: 07/10/2010, 17h37
  5. Réponses: 1
    Dernier message: 10/08/2008, 18h00

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo