Bonjour,
Je cherche à trouver un modèle prédictif pour des montants de sinistres liées à une erreur médicale, et j'ai à priori 16 variables possibles explicatives.
Ma variable à expliquer Y1 possède 2794 observations qui vont de 12 à
4 572 500.
Mon mémoire est de voir l'efficacité d'un glm par rapport à un chain ladder classique, mais je suis confronter à deux problèmes.
Le premier est que j'ai cherché une adéquation entre mon Y1 parmi les familles de distribution que R propose .
cf Graphe de l’adéquation à une loi gamma(k, teta) où k=0.09024759 et teta=816831.7 par la méthode des moments.)
Après avoir essayer d'avoir des NIpi>5, j'ai fait le test du chi 2 qui est rejette.
Voici mon code-----------------------------------------------------
Donc , on rejette l'hypothèse H0 d'adéquation d'une chi 2, non?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 y1=sort(y1) > b2=c(0,50000,100000,200000,400000,max(y1)) > h2=hist(y1,proba=TRUE,breaks=b2) > lines(gam,dgamma(gam,k_hat,scale=teta_hat),col="red") > y2=c(pgamma(b[2:(nb2-1)],k_hat,scale=teta_hat),1)-c(0,pgamma(b[2:(nb2-1)],k_hat,scale=teta_hat)) > y2*h2$counts [1] 1652.853027 16.967469 8.808031 5.147742 4.734594 > chi2=chisq.test(h2$counts,p=y2) > chi2 Chi-squared test for given probabilities data: h2$counts X-squared = 428.5253, df = 4, p-value < 2.2e-16
Le test de Kolmogoroff Smirnoff n’est pas applicable à cause des répétitions.
J'ai quand même voulu voir ce que donnait un glm puisque le graphe ne me semblait pas si mauvais.
Mais j’ai des messages d’erreurs que je ne comprends pas
et j’avoue ne pas savoir, ni ne pas comprendre de quoi il s’agit.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 > glm0=glm(Y1~.,data=Y1,family=Gamma(link="inverse")) Error: no valid set of coefficients has been found: please supply starting values In addition: Warning message: In log(ifelse(y == 0, 1, y/mu)) : NaNs produced > glm0=glm(Y1~.,data=Y1,family=inverse.gaussian(link="1/mu^2")) Error: no valid set of coefficients has been found: please supply starting values In addition: Warning message: In sqrt(eta) : NaNs produced
Je joins les données également,parce que peut être que je ne peut appliquer du tout un glm?
Un grand merci pour les courageux qui s'aventureront dans ce message.
Je ne peux pas mettre les données en pièces jointes c'est trop lourd donc si besoin je peux les envoyer par mail.
Partager