Réseau de neurones pour un Morpion

**wadison** · 17/10/2008, 10h52

Salut,

Je suis en train de faire un réseau de neurone qui apprendrais à jouer au morpion. C'est surtout pour apprendre à manipuler les neurones parce que ce n'est pas les 9 cases du morpions qui vont effrayer nos machines d'aujourd'hui.

Le principe je crée un réseau qui apprend les règles. puis au file des parties avec des humains il apprend la stratégie.

la grille est modélisé par un vecteur de dimension 9. je fait un réseau de neurone pour chaque tour.

En entrée je met la séquence joué. Par exemple pour le réseau de neurone du tour 4 : il ya 3 entrés eg:4 5 6 et une sortie : ce que le CPU doit jouer.
C'est un réseau en 3 couche.. la couche caché a 2 neurones de plus que la couche d'entrée.

Pour l'instant je voudrais lui apprendre les regles du morpion : jouer entre 0 et 8 et ne pas choisir une position deja utilisé.

J'ai créer un echantillion alléatoire d'aprentissage qui respecte les régles du morpions.

J'ai des problèmes avec FANN il me renvoit tjrs 1.0 .. Mais je suis venu ici pour avoir un avis sur la modélisation ! si je m'y prend bien. et quel genre de fonction d'activation me conseillé vous.

c'est un peu mastoc comme topic.
Merci d'avance
Marc++

**Alp** · 17/10/2008, 20h48

Je vais essayer de te donner quelques pistes...

Je mettrais 9 sorties... Et derrière tu prends le maximum des 9, et ça correspond à l'indice de la case sur laquelle jouer.

Pour les entrées, 9 je pense aussi pour avoir l'état du jeu.
Pour la couche cachée, là comme d'hab c'est à tâton.
Ensuite, il faut que tu lui files des situations, et en sortie tu lui dis que tu attendais qu'il joue sur telle ou telle case.

Un algorithme d'apprentissage fera le reste du travail !

PS : la fonction sigmoïde devrait convenir.

Invité · 18/09/2011, 09h53

Bonjour,
Je travaille depuis quelque heures sur un jeu de mopion contre un réseau de neurones.
J'ai testé deux réseaux, un fourni par une bibliothèque Ada, PragmARC REM_NN_Wrapper, et dernièrement FAnn.

pour obtenir un semblant de résultat, je met bien 9 neurones d'entrée, 9 neurones de sortie, et 9 ou 81 neurones de couche cachée.
Pour les fonctions, j'utilise :
Train_Data.Set_Training_Algorithm(Ann, FANN_TRAIN_INCREMENTAL);
Train_Data.Set_Activation_Function_Output(Ann, FANN_SIGMOID_SYMMETRIC);
Train_Data.Set_Activation_Function_HIDDEN(Ann, FANN_SIGMOID);

Pour le fichier de donnée, je donne tous les coups à partir d'un plateau vides de manière à ce que chaque sortie soit une entrée, c'est à dire en dupliquant chaque ligne, sauf la première dont le double se trouve en fin de fichier.

Le réseau semble apprendre mais pas de résultat à l'exploitation.

Je me demande ce que je pourrait donner d'autre comme fichier de données.

Mon fichier de donnée est donc constitué d'un suite de ligne double de 9 réel valant 0.0 pour les case vides, 1.0 pour le joueur 1 et -1.0 pour le joueur deux.

**Franck Dernoncourt** · 18/09/2011, 12h06

Envoyé par jovalise

Pour le fichier de données, je donne tous les coups à partir d'un plateau vides de manière à ce que chaque sortie soit une entrée, c'est à dire en dupliquant chaque ligne, sauf la première dont le double se trouve en fin de fichier.

Je ne comprends pas, peux-tu réexpliquer stp ? Et en tout, cela te fait combien de données ? fichier de données = ensemble d'apprentissage, de test, de validation ?

Sinon, en [ame="http://www.google.fr/search?sourceid=chrome&ie=UTF-8&q=tictactoe+neural+network"] Googlant "tictactoe neural network"[/ame], il y a pas mal de réponses, notamment :

Invité · 18/09/2011, 12h33

Ca fait 4722492 ligne soit 2351456 exemple pour l'ensemble d'apprentissage.
Ce qui représente tout les coup de toute les partie possible d'un jeu de morpion.

**Franck Dernoncourt** · 18/09/2011, 12h38

Envoyé par jovalise

Ce qui représente tout les coup de toute les partie possible d'un jeu de morpion.

Pour l'apprentissage, ne faudrait-il pas lui faire apprendre seulement les "bons" coups ?

(btw hésite pas à poster ton code de génération de tous les coups de toutes les parties possible d'un Tic Tac Toe sur http://www.developpez.net/forums/d11...outes-parties/ , cela peut toujours intéresser quelqu'un qui tombe sur le thrad)

Invité · 18/09/2011, 12h41

Merci pour ta réponse.
Les bons coup ? Je comprends pas.

**Franck Dernoncourt** · 18/09/2011, 12h53

Afin que le réseau de neurones apprenne à jouer correctement, ne faut-il pas lui faire apprendre un ensemble de couples (input : état du jeu ; output : bon coup) ? Pour définir un bon coup, tu pourrais prendre le coup issue de la stratégie http://en.wikipedia.org/wiki/Tic_tac_toe#Strategy par exemple :

Envoyé par http://en.wikipedia.org/wiki/Tic_tac_toe#Strategy

Win: If the player has two in a row, play the third to get three in a row.
Block: If the [opponent] has two in a row, play the third to block them.
Fork: Create an opportunity where you can win in two ways.
Block opponent's Fork:
Option 1: Create two in a row to force the opponent into defending, as long as it doesn't result in them creating a fork or winning. For example, if "X" has a corner, "O" has the center, and "X" has the opposite corner as well, "O" must not play a corner in order to win. (Playing a corner in this scenario creates a fork for "X" to win.)
Option 2: If there is a configuration where the opponent can fork, block that fork.
Center: Play the center.
Opposite corner: If the opponent is in the corner, play the opposite corner.
Empty corner: Play in a corner square.
Empty side: Play in a middle square on any of the 4 sides.

Invité · 18/09/2011, 13h00

Envoyé par Franck Dernoncourt

Afin que le réseau de neurones apprenne à jouer correctement, ne faut-il pas lui faire apprendre un ensemble de couples (input : état du jeu ; output : bon coup) ?

Ben si, c'est ce qu'il me semble avoir fait.
Je commence par un plateau vide.
Je donne le coup suivant.
Je donne le coup précédent
Je donne le coup suivant.
(ainsi de suite)

(Désolé pour les liens en english, je capte pas.

)

**Franck Dernoncourt** · 18/09/2011, 13h06

Envoyé par jovalise

Ben si, c'est ce qu'il me semble avoir fait.
Je commence par un plateau vide.
Je donne le coup suivant.
Je donne le coup précédent
Je donne le coup suivant.
(ainsi de suite)

Si tu donnes n'importe quel coup, comment le réseau peut-il apprendre à bien jouer (e.g. jouer des coups gagnants, ou au moins des coups qui ne sont pas perdants, étant donné qu'un jeu parfait conduit à un match nul) ?

Envoyé par jovalise

(Désolé pour les liens en english, je capte pas.

)

Utilise Gtranslate, ça marche bien à présent

Invité · 18/09/2011, 13h13

Envoyé par Franck Dernoncourt

Si tu donnes n'importe quel coup, comment le réseau peut-il apprendre à bien jouer (e.g. jouer des coups gagnants, ou au moins des coups qui ne sont pas perdants, étant donné qu'un jeu parfait conduit à un match nul) ?

A vrai dire, j'y ai pensé, j'ai également essayer de lui apprendre seulement les partie nulles et celle gagnées par le joueur 2.

Pour être précis, je donne des couple de neuf réel 0.0 pour vide 1.0 pour le joueur 1 et -1.0 pour le joueur deux.
Et je donne l'état du plateau complet à chaque coup.

**Franck Dernoncourt** · 18/09/2011, 13h43

Personnellement, pour générer l'ensemble d'apprentissage, i.e. un ensemble de couples (input : état du jeu ; output : bon coup ), je génèrerais tous les états du jeu atteignables (en enlevant bien sûr les états terminaux, i.e. lorsqu'un joueur a déjà réussi à aligner 3 X ou O), puis calculerais le bon coup en suivant la stratégie http://en.wikipedia.org/wiki/Tic_tac_toe#Strategy par exemple :

Envoyé par http://en.wikipedia.org/wiki/Tic_tac_toe#Strategy

Win: If the player has two in a row, play the third to get three in a row.
Block: If the [opponent] has two in a row, play the third to block them.
Fork: Create an opportunity where you can win in two ways.
Block opponent's Fork:
Option 1: Create two in a row to force the opponent into defending, as long as it doesn't result in them creating a fork or winning. For example, if "X" has a corner, "O" has the center, and "X" has the opposite corner as well, "O" must not play a corner in order to win. (Playing a corner in this scenario creates a fork for "X" to win.)
Option 2: If there is a configuration where the opponent can fork, block that fork.
Center: Play the center.
Opposite corner: If the opponent is in the corner, play the opposite corner.
Empty corner: Play in a corner square.
Empty side: Play in a middle square on any of the 4 sides.

Sinon, la PJ explique une autre méthode pour générer les données l'apprentissage (aucune idée à quel point elle efficace, je n'ai fait que survoler le fichier). En particulier, elle insiste sur l'utilité de repérer les situations symétriques.

Invité · 18/09/2011, 15h18

A partir du moment ou c'est toujours le joueur 1 qui commence, il me semble que toutes les partie à partir de là sont possible. Au réseau de faire sont travail.
Si je commence à trier les coup pour sélectionner seulement les partie intéressante, il va me manquer un certain nombre de possibilité ou le réseau ne saura en aucun cas quoi jouer.

**Franck Dernoncourt** · 18/09/2011, 15h23

Envoyé par jovalise

Si je commence à trier les coup pour sélectionner seulement les partie intéressante, il va me manquer un certain nombre de possibilité ou le réseau ne saura en aucun cas quoi jouer.

Euh, je proposais justement de générer tous les états du jeu atteignables. pourquoi manquerait-il des possibilités ?

Invité · 18/09/2011, 15h45

A oui, mais non, j'ai tous les état.
Je veux pas les générer, je les ai?.
Maintenant, je veux les enseigner à un réseau de neurone pour jouer avec.

**Franck Dernoncourt** · 19/09/2011, 22h01

Envoyé par jovalise

Maintenant, je veux les enseigner à un réseau de neurone pour jouer avec.

Pour cela, il faut un ensemble d'apprentissage (= training set).

Envoyé par http://en.wikipedia.org/wiki/Training_set

In artificial intelligence or machine learning, a training set consists of an input vector and an answer vector, and is used together with a supervised learning method to train a knowledge database (e.g. a neural net or a naive bayes classifier) used by an AI machine.

Dans ton cas, un ensemble d'apprentissage pourrait être un ensemble de couples (input : état du jeu ; output : bon coup).

Je ne vois pas trop ce qui te bloque. Bon par contre rien ne dit que l'exemple d'ensemble d'apprentissage que je donne sera efficace.

Invité · 20/09/2011, 14h14

Envoyé par Franck Dernoncourt

Pour cela, il faut un ensemble d'apprentissage (= training set).

Je l'ai, c'est la troisième fois que je le dis.

Envoyé par Franck Dernoncourt

Dans ton cas, un ensemble d'apprentissage pourrait être un ensemble de couples (input : état du jeu ; output : bon coup).

Je ne vois pas trop ce qui te bloque. Bon par contre rien ne dit que l'exemple d'ensemble d'apprentissage que je donne sera efficace.

T'as donné un exemple toi ... Ou ça.
Façon, c'est pas le problème.
J'ai l'exemple. Le réseau semble apprendre, mais il est nul pour jouer.

Invité · 20/09/2011, 14h17

Envoyé par jovalise

Bonjour,
Je travaille depuis quelque heures sur un jeu de mopion contre un réseau de neurones.
J'ai testé deux réseaux, un fourni par une bibliothèque Ada, PragmARC REM_NN_Wrapper, et dernièrement FAnn.

pour obtenir un semblant de résultat, je met bien 9 neurones d'entrée, 9 neurones de sortie, et 9 ou 81 neurones de couche cachée.
Pour les fonctions, j'utilise :
Train_Data.Set_Training_Algorithm(Ann, FANN_TRAIN_INCREMENTAL);
Train_Data.Set_Activation_Function_Output(Ann, FANN_SIGMOID_SYMMETRIC);
Train_Data.Set_Activation_Function_HIDDEN(Ann, FANN_SIGMOID);

Pour le fichier de donnée, je donne tous les coups à partir d'un plateau vides de manière à ce que chaque sortie soit une entrée, c'est à dire en dupliquant chaque ligne, sauf la première dont le double se trouve en fin de fichier.

Le réseau semble apprendre mais pas de résultat à l'exploitation.

Je me demande ce que je pourrait donner d'autre comme fichier de données.

Mon fichier de donnée est donc constitué d'un suite de ligne double de 9 réel valant 0.0 pour les case vides, 1.0 pour le joueur 1 et -1.0 pour le joueur deux.

Ca c'est la méthode que j'ai donné dix message plus haut.
J'en ai essayé d'autre, plus ou moins rapide, mais rien n'y fais, il sais pas faire la différence entre le premier coup et un autre.

**Franck Dernoncourt** · 20/09/2011, 14h27

Si le réseau semble apprendre, mais qu'il est nul pour jouer, cela ne veut-il par dire que l'ensemble d'apprentissage n'est pas bon ?
J'ai l'impression qu'il y a quelque chose que je ne comprends pas

Invité · 20/09/2011, 14h37

Envoyé par Franck Dernoncourt

Si le réseau semble apprendre, mais qu'il est nul pour jouer, cela ne veut-il par dire que l'ensemble d'apprentissage n'est pas bon ?
J'ai l'impression qu'il y a quelque chose que je ne comprends pas

Mon exemple est l'ensemble des coups de toute les partie en spécifiant l'état du jeu courant et l'état du jeu suivant.

Peut-être qu'avec l'état courant et seulement le coup à jouer en output serait une solution.

Je venais voir s'il y avais des paramètres de Fann connus pour entrainer un réseau, en admettant que mon exemple fut bon.

Réseau de neurones pour un Morpion

Méthodes prédictives

Discussions similaires

Partager

Partager