mise en forme d'un set de données et comportement attendu d'un NN

**pyriame** · 21/08/2017, 11h53

Bonjour a tous,

J'ai 3 questions concernant les set de données d'apprentissage d'un RN avec retropropagation du gradient et une couche caché.

Je prend un exemple très très simple:
input: 1 variable avec 4 choix A, B, C ou D codé respectivement 0001, 0010, 0100, -1-1-1-1 donc sur 4 neurones (variable discrète)
output: 1 variable avec 2 réponses SUCCES ou ECHEC codé par 10 et 01 (variable binaire)

1) Le RN utilise sont set de données pour choisir A B C ou D.
2) Un vérificateur lui dit si c'est un succès ou un échec.
3) Le tous vient grossir le pool d'exemple de données disponible pour faire apprendre le RN

C'est un exemple super simplifié ou pour l'exemple seul D est un echec, A, B et C toujours des succès. La totalité des combinaisons possible est de 4 lignes:
000110
001010
010010
-1-1-1-101

Comme chaque tour de boucle le RN ajoute l’expérience de la boucle précédente on a très vite une redondance des exemples.

Ma première question porte donc sur les doublons. Qui serait m'expliquer l'influence qu'ils ont sur le RN ?
-Est ce qu'il modifie le poids des neurones ? perturbe ou biaise les résultats. si j'ai 300 fois "A = succés" sur un set de 320 exemples cela a t'il une influence (exception faite de l'allongement du temps de traitement)?
-Doit on chasser tous doublons avant de lancer un entrainement ?

ma seconde question porte sur le manque de variable explicative. Je ne comprend pas le comportement d'un réseaux face a ce problème

Je reprend mon exemple précédent mais cette fois A, B et C sont toujours des succès et par contre cette fois ci D est parfois un succès et parfois un échec. il manque une variables qui expliquerai cette variabilité du résultat pour D mais elle n'est pas disponible. La totalité des combinaisons possible est de 5 lignes:
000110
001010
010010
-1-1-1-101
-1-1-1-110

Que ce passe t'il pour se genre d'exemples ? Le réseaux est instable ? le résultat dépendra du nombre de fois ou le doublon est présent ? genre sur le set d'exemple si j'ai 400 ligne et que pour D c'est plus souvent Succès que Échec alors le résultat sera pour D un Succès ? Mais si on accepte pas les doublons l'égalité est parfaite (pour D un succcès et un echec ) et donc le résultat sera ?

Enfin pour conclure une question bonus

Pour une variable binaire de résultat, dans un RN c'est une valeur continue entre 0 et 1. Ensuite on code entre [0 et 0,5] -> Oui, OK, victoire, succès et entre [0,5 et 1] l'inverse (ou vice et versa si on veut). Est-ce que cette valeur a une importance ? Est elle utilisable ? Outre l'interet de savoir si c'est oui ou non peut on dire aussi qu'un résultat de par exemple 0,0001 est plus vrai ou plus "ok" qu'un résultat de 0,49? Peut on classer différent résultat avec cette valeur ou seul l'intervalle a du sens ?

Voila je nage un peu dans le brouillard

C'est pas encore très claire dans ma tête. Merci de votre aide

mise en forme d'un set de données et comportement attendu d'un NN

Intelligence artificielle

Discussions similaires

Partager

Partager