Bonjour à tous !

J'entraine un neural network avec des très peu de groupe (360 au max) et j'ai un soucie d'interpretation. J'utilise la regularization l1,l2 et dropout avec softmax comme fonction de sortis. C'est un classificateur binaire. j'utilise tanh comme fonction d'activation et je normalize les données pour qu'elles aient moyenne=0 et std=1.

Quant je l'entraine avec deux layer je vois que l'accuracy en cross validation est maintenu a 50% pour les deux (test et train) mais quand j'enlève la regularization, on overfit bien.

Pourquoi est-ce que la regularization est si puissante avec deux layers ??

Merci à tous !!