Prédiction de la langue d’un texte

Version imprimable

1 pièce(s) jointe(s)

Bonjour,

Je mène un projet sur un classifieur de type perceptron multicouches permettant de détecter la langue d'un texte à partir de la fréquence des bigrammes de ce dernier.

Les performances obtenues par le classifieur dépendent du nombre d’exemples vus lors de l’apprentissage. Je veux tracer une courbe d’apprentissage donnant les performances du réseau selon la taille des données d’apprentissage pour chacune des langues.

Je pars d'un fichier enregistré sur mon ordi puis
Code:

1 2 3 4 5 6 7 8 9 10 11 l_corpus_train=[ ['en', './train/en_partut-ud-train.txt'], ['fr', './train/fr_sequoia-ud-train.txt'], ['it', './train/it_partut-ud-train.txt'], ['nl', './train/nl_lassysmall-ud-train.txt'], ['sl', './train/sl_sst-ud-train.txt'], ['es', './train/es_ancora-ud-train.txt'], ['pt', './train/pt_bosque-ud-train.txt'], ['de', './train/de_gsd-ud-train.txt'], ['ca', './train/ca_ancora-ud-train.txt'] ]
Voici le code qui me pose problème.
Je souhaite afficher sur le même graphique, une courbe par langue.
Pour l'instant, j'ai crée mon graph vide mais je ne ne sais pas comment créer ces courbes
je pense utiliser "nums_subplots" sans savoir comment
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 from keras.models import Sequential from keras.layers import Dense, Activation, Dropout model = Sequential() nbLangues = len(codeLangues.keys()) print('nbLangues =', nbLangues) model.add(Dense(units=100, activation='tanh', input_dim=28*28)) model.add(Dense(units=nbLangues, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) import matplotlib.pyplot as plt accuracy = {} #nums_subplots plt.xlim(500, 1000) plt.ylim(0,1) plt.xlabel("datasize") plt.ylabel("accuracy") plt.title('titre') plt.legend() plt.show()
voilà le type de graph que je veux obtenir, une langue = une courbe
Pièce jointe 651372

je vous remercie si vous pouvez m'apporter des pistes
Pauline

Bonjour

Citation:

Envoyé par pauline1835

Je souhaite afficher sur le même graphique, une courbe par langue.
Pour l'instant, j'ai crée mon graph vide mais je ne ne sais pas comment créer ces courbes
je pense utiliser "nums_subplots" sans savoir comment

Alors subplot() est la fonction qui crée le graphique (la fenêtre). Deux subplot() donneront deux fenêtres.
Cette fonction retourne un tuple de 2 éléments qui sont la fenêtre et l'axe X/Y.
Il suffit de rajouter à l'axe les points pour que ça donne une courbe. Cet ajout se fait par la méthode axe.plot(). Un appel = une courbe, deux appels = deux courbes

Exemple
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 import matplotlib.pyplot as plt data=tuple(range(100)) points={ "c1" : tuple(x for x in data), "c2" : tuple(x**2 for x in data), "c3" : tuple(x**0.5 for x in data), } # plot (fig, ax) = plt.subplots() for v in points.values(): ax.plot(data, v, linewidth=2.0) ax.set( xlim=(0, 8), xticks=range(0, 8), ylim=(0, 8), yticks=range(0, 8), ) plt.show()
Tu peux rajouter c4, c5, ... contenant leurs propres valeurs, elles se rajouteront automatiquement.

Bonjour
merci pour ces infos
j'ai modifié un peu le code afin que mes data soient prises dans le fichier l_corpus_train donné au départ
je n'ai pas de points, mais seulement des fichiers textes
sauf que ça ne fonctionne pas
quelle syntaxe de code utiliser pour que ce soit mes données qui s'affichent dans le graph ?
merci!
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import matplotlib.pyplot as plt data=tuple(range(1000)) points={ "c1" : tuple(x for x in l_corpus_train), } # plot (fig, ax) = plt.subplots() for v in points.values(): ax.plot(l_corpus_train, v, linewidth=2.0) ax.set( xlim=(500, 1000), ylim=(0, 1), ) plt.show()

29/02/2024, 15h23
fred1599

Bonjour,

@pauline1835,

La variable v dans la boucle for v in points.values(): récupère des tuples contenant des éléments de l_corpus_train, ce qui signifie que vous essayez de tracer des chemins de fichiers en tant que données de l'axe y, ce qui est inapproprié !

Vous utilisez l_corpus_train, qui est une liste de listes contenant des paires de codes de langue et des chemins de fichiers. Ces données ne sont pas numériques et ne peuvent pas être utilisées directement comme valeurs pour un axe de tracé dans matplotlib, qui attend des données numériques ou des catégories directement utilisables.

Pour corriger ces problèmes et générer un graphique fonctionnel, vous devez définir clairement ce que vous souhaitez tracer !

Assurez-vous que les données que vous souhaitez tracer correspondent aux types attendus par matplotlib et reflètent l'objectif de votre visualisation.
29/02/2024, 15h24
Sve@r

Dans mon exemple, data est une liste de valeurs (la liste des "x" à traiter). "l_corpus_train" est une liste de tuples chaque tuple contenant deux chaines, la première représentant (pour nous les humains et non pas pour Python) une langue et la seconde un fichier texte. Cela n'a donc rien à voir...:weird:
Tu veux afficher une courbe ben commence déjà par récupérer les valeurs que tu veux afficher :sleep:
[edit]Bravo à fred1599 qui a été plus rapide 8-)