Amélioration d'un modèle d'apprentissage

**Iujin** · 16/03/2017, 15h33

Bonjour,

A partir d'une base d'apprentissage, j'ai défini un modèle basé sur une régression logistique qui permet de prédire une réponse/non réponse.
Ce modèle va être utilisé en pratique au travers d'un logiciel. Si le logiciel prédit une réponse positive, on lance le test en pratique. Le résultat réel du test est enregistré, permettant de savoir si la prédiction du modèle était bonne ou mauvaise.

Je souhaiterai améliorer le modèle initial en intégrant l'information fournie par ces nouvelles données.
L'utilisation du modèle pour faire un "pré-tri" introduit un biais qui ne me permet pas de construire simplement un nouveau modèle de régression logistique sur l'ensemble des données.

Je cherche donc des méthodes d'amélioration d'algorithme. Je ne parviens pas à trouver le nom de méthode s'apparentant à cela.
Est- ce que cela parle à quelqu'un?

Merci

**dev_ggy** · 16/03/2017, 16h51

Bonjour,

j'essaie de te répondre le mieux possible sans être sur d'être très juste.

Cela pour te dire qu'on ne peut pas améliorer un modèle de régression logistique ou autre en dehors de quelque cas spécifique sans refaire un modèle.

Attention, la constitution d'un Dataset doit avoir une taille critique difficile à définir. Ajouter des données supplémentaires n'améliora pas toujours le modèle. L'amélioration d'un modèle se fera uniquement dans ce cas par une diversification des données en entrée.

Au plaisir de te lire.

**Iujin** · 16/03/2017, 17h07

Merci beaucoup pour ta réponse.
Mon jeu de données de départ est assez restreint, c'est pourquoi je pense que le modèle pourra être amélioré.

Tu parles de refaire un modèle, ce serait possible malgré le biais de sélection de mon modèle actuel?

Et si je pars sur une autre méthode d'apprentissage que la régression logistique, sais-tu si d'autres méthodes me permettraient d'améliorer le modèle à posteriori?

**dev_ggy** · 16/03/2017, 17h23

Tu parles de refaire un modèle, ce serait possible malgré le biais de sélection de mon modèle actuel?

Je ne comprends pas bien cet aspect(le biais) de ta question, peux-tu préciser ?

sais-tu si d'autres méthodes me permettraient d'améliorer le modèle a posteriori?

À part dans certains Tutorial de Tensorflow ou l'apprentissage se fait par vague successive, je ne sais pas. Ça reste une solution complexe à mettre en oeuvre.

**tbc92** · 16/03/2017, 18h00

Les nouveaux 'individus' testés sont tous des individus qui ressortaient comme positifs selon le premier modèle, et à l'arrivée, ces individus vont s'avérer positifs, ou bien négatifs.
Le nouveau modèle bâti sur plus d'individus sera donc forcément plus 'pessimiste' que l'ancien modèle.

Idéalement, il faudrait lancer aussi une mesure sur certains individus estimés comme négatifs (les plus proches de la frontière pour des raisons de coûts), pour éliminer, ou au moins réduire ce biais.

**Iujin** · 16/03/2017, 18h06

Envoyé par dev_ggy

Je ne comprends pas bien cet aspect(le biais) de ta question, peux-tu préciser ?

Je fais une sélection par mon modèle, et ne fais le test que si le modèle prédit une réponse. Mes nouvelles données vont donc toute avoir un profil de base similaire.

Un exemple simplifié : si mon modèle de départ dit "les hommes répondent, les femmes non"
Si un homme arrive, mon modèle dit "répondeur" donc je fais le test en réel, et j'observe la réponse réelle.
Si une femme arrive, mon modèle dit "non répondeur" donc je ne fais pas le test en réel. Et je n'ai donc pas l'info.

A terme, sur les données que j'ai collecté, j'aurai donc que des hommes.
C'est ce que j'entends par biais.
Je n'arrive pas à déterminer si ça va avoir un impact ou non.

Merci, je vais aller regarder ce qu'est Tensorflow.

**Iujin** · 16/03/2017, 18h21

Envoyé par tbc92

Les nouveaux 'individus' testés sont tous des individus qui ressortaient comme positifs selon le premier modèle, et à l'arrivée, ces individus vont s'avérer positifs, ou bien négatifs.
Le nouveau modèle bâti sur plus d'individus sera donc forcément plus 'pessimiste' que l'ancien modèle.

Idéalement, il faudrait lancer aussi une mesure sur certains individus estimés comme négatifs (les plus proches de la frontière pour des raisons de coûts), pour éliminer, ou au moins réduire ce biais.

Merci tbc92, c'est exactement ça le biais que j'évoquais.
Pourquoi le nouveau modèle serait plus pessimiste, sachant qu'il y aura au final surement plus de répondeur dans ma base de données que sur la population générale?

ça te semble pertinent de construire à nouveau un modèle de régression logistique sur le pool individu de départ + individu testés? Au delà d'un modèle + pessimiste, il n'y a pas d'autre problématique?

Je suis d'accord avec ta proposition pour l'ajout d'individus estimés comme négatifs, mais dans la pratique je en suis pas sûre que je puisse le mettre en place.

**tbc92** · 16/03/2017, 19h50

Normalement, le modèle devrait devenir plus pessimiste ; on va se placer dans un cadre médical pour illustrer : le modèle initial considérait que sur les individus hommes de plus de 40 ans, la technique donnerait un résultat positif... On fait donc la 'mise en production' sur ce périmètre, et il s'avère que ça marche sur les hommes de plus de 40 ans et de plus de 80 kg uniquement. Le nouveau modèle sera donc plus pessimiste (même si effectivement, il a une proportion de positifs plus élevée que l'échantillon d'origine).
Il y a peut être un risque que le nouveau modèle estime que le traitement marchera pour les hommes de plus de 35 ans et de plus de 80kg, donc effectivement ni plus pessimiste, ni moins pessimiste.
Mais vu de loin, j'ai tendance à dire qu'avec un bon algorithme, ça ne devrait pas arriver. Ce n'est que mon point de vue, qui n'engage que moi, et donc qui n'a aucune vraie valeur.

Dans un milieu où chaque mesure a un coût, j'imaginais bien que tu n'obtiendrais pas de mesure sur les individus estimés comme négatifs.
J'imagine qu'il y a un seuil, une note limite : aujourd'hui tu classes comme positifs les individus qui ont une note supérieure à 0.75 par exemple. A toi de tricher un peu, en abaissant ce seuil à 0.72.

**Iujin** · 17/03/2017, 09h32

Merci tbc92 pour ta réflexion sur ma problématique. Je comprends mieux pourquoi tu parlais d'un modèle plus pessimiste.

Il y a en effet un seuil, et l'abaisser peut effectivement me permettre d'élargir un peu le nombre d'individus testés. Merci pour cette piste!

Amélioration d'un modèle d'apprentissage

Méthodes prédictives

Discussions similaires

Partager

Partager