Correction Grammaticale Depuis Python

**rambc** · 31/10/2010, 21h05

Bonjour,
connaissez-vous un outil permettant de faire de la correction grammaticale depuis Python ?

Je viens de découvrir GRAC mais le projet est abandonné depuis 2005...

A défaut, connaissez-vous des façons de coder ce genre de chose ?

**wiztricks** · 31/10/2010, 21h40

Salut
N'y a-t-il pas des API pour attaquer le grammar checker d'Open Office?
- W
Note: Pour WORD, c'est simple: COM

**rambc** · 01/11/2010, 12h19

Bonjour,
il y a bien ceci mais c'est en Java... Peut-on communiquer avec des classes Java ?

**rambc** · 01/11/2010, 12h33

En fait, je n'avais pas lu cette page. On peut utiliser le logiciel en ligne de commande. Je vais tester cela.

**rambc** · 01/11/2010, 13h32

Finalement, j'ai fait ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 #! /usr/bin/env python
 
import os
 
pathLanguageToolJar = r"LanguageTool-1.1/LanguageTool.jar"
pathFile = "test.txt"
 
sortie = os.popen("java -jar {0} -l fr -c utf8 {1}".format(pathLanguageToolJar,
                                                           pathFile))
print(sortie.read())

Le fichier TXT est le suivant :

Voici un petit textes, histoire de voir ce qu'il se passent.

Le code renvoie :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
Expected text language: French
Working on test.txt...
1.) Line 1, column 10, Rule ID: ACCORD_NOMBRE[1]
Message: «*petit*» et «*textes*» ne semblent pas bien accordés en nombre
Voici un petit textes, histoire de voir ce qu'il se passent. 
         ^^^^^^^^^^^^                                        
 
2.) Line 1, column 47, Rule ID: ACCORD_R_PERS_VERBE[3]
Message: Vérifiez l'accord entre le pronom «*il*» et le verbe «*passent*».
...oici un petit textes, histoire de voir ce qu'il se passent. 
                                                ^^^^^^^^^^^^^  
Time: 316ms for 1 sentences (3.2 sentences/sec)

Le seul souci que j'ai c'est qu'avec Python 3, il semble y avoir un problème d'encodage car j'ai l'erreur suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
Traceback (most recent call last):
  File "/Users/cbal/Documents/myWorld/python/tutos/languageTool/test.py", line 11, in <module>
    print(sortie.read())
  File "/Library/Frameworks/Python.framework/Versions/3.1/lib/python3.1/codecs.py", line 300, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 112-113: invalid data

Ce qui renvoie cette erreur c'est l'instruction sortie.read()... Je vais voir si cela se "répare"...

IMPORTANT ! Il faut que les mots soient correctement orthographiés. Donc en pratique, on utilisera par exemple pyEnchant pour l'orthographe, suivi de ce qui est ci-dessus pour la grammaire.

**rambc** · 01/11/2010, 14h03

MISE A JOUR DU MARDI 2 NOVEMBRE 2010 : ajout d'infos sur les erreurs "grammaticales".

Enfin bon pour Python3 !

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
#! /usr/bin/env python3
 
# Sources :
#    http://docs.python.org/py3k/library/subprocess.html?highlight=subprocess#using-the-subprocess-module
#    http://www.developpez.net/forums/d922907/autres-langages/python-zope/general-python/affichage-resultat-commande-popen/#post5208308
 
import shlex
import subprocess
 
pathLanguageToolJar = r"LanguageTool-1.1/LanguageTool.jar"
pathFile = "test.txt"
# " -Dfile.encoding=UTF-8" given in the mailing list of LanguageTool.
command_line = 'java -Dfile.encoding=UTF-8 -jar "{0}" -l fr -c utf8 "{1}"'.format(pathLanguageToolJar,
                                                        pathFile)
args = shlex.split(command_line)
 
out=subprocess.Popen(args,stdout=subprocess.PIPE)
(sout,serr)=out.communicate()
 
# sout contains BYTES...
sout = sout.decode('utf-8') 
 
print(sout)

La sortie est la suivante :

Expected text language: French
Working on test.txt...
1.) Line 1, column 10, Rule ID: ACCORD_NOMBRE[1]
Message: «*petit*» et «*textes*» ne semblent pas bien accordés en nombre
Voici un petit textes, histoire de voir ce qu'il se passent.
^^^^^^^^^^^^

2.) Line 1, column 47, Rule ID: ACCORD_R_PERS_VERBE[3]
Message: Vérifiez l'accord entre le pronom «*il*» et le verbe «*passent*».
...oici un petit textes, histoire de voir ce qu'il se passent.
^^^^^^^^^^^^^
Time: 333ms for 1 sentences (3.0 sentences/sec)

Nous avons enfin des "strings" que je préfère aux "bytes"...

Pour savoir ce que signifie chacune des erreurs, il faut regarder le fichier grammar.xml dans le dossier languageTool/LanguageTool-1.1/rules/fr.

**rambc** · 01/11/2010, 15h14

Du coup, on peut aussi faire ceci pour Python 3 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
#! /usr/bin/env python3
 
import os
 
pathLanguageToolJar = r"LanguageTool-1.1/LanguageTool.jar"
pathFile = "test.txt"
sortie = os.popen("java -Dfile.encoding=UTF-8 -jar {0} -l fr -c utf8 {1}".format(pathLanguageToolJar,
                                                           pathFile))
print(sortie.read())

**wiztricks** · 01/11/2010, 15h39

Envoyé par rambc

Il reste à convertir ces graveleux BYTES en une chaîne UTF-8. Je vais regarder cela de ce pas dans Dive Into Python 3...

UTF-8 = bytes dans lesquels certains caractères sont multi-bytes.
Unicode est la représentation "interne" tous les caractères ont la même longueur. En fait, il faut plutôt reconnaître l'encoding de ces bytes pour qu'il puisse être mis en paramètre de leur conversion en Unicode ou forcer la sortie à être UTF-8.

Normalement OOo devrait avoir une interface Python i.e pas besoin de passer par des sous process.
-W

**rambc** · 01/11/2010, 23h27

MISE A JOUR DU MARDI 2 NOVEMBRE 2010 : ajout d'infos sur les balises "grammaticales".

Envoyé par wiztricks

Normalement OOo devrait avoir une interface Python i.e pas besoin de passer par des sous process.

Oui... mais ceci demande d'installer Open Office.

L'utilisation de la ligne de commande est assez bien faite. On peut par exemple obtenir des infos grammaticales comme suit pour le texte utilisé en exemple. Il faut ajouter -v à la commande.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
<S> Voici[voici/P]  un[un/D m s]  petit[petit/J m s]
textes[texte/N m p],[,/M nonfin]  histoire[histoire/N f s]
de[de/P]  voir[voir/V inf]  ce[ce/R dem m s]  qu[qu/C sub]'[']
il[il/R pers suj 3 m s]  se[se/R pers obj 3 sp]
passent[passer/V sub pres 3 p,passer/V ind pres 3 p]
.[./M fin,</S>]<P/>

Ceci me sera utile un peu plus tard sur un autre projet.

Pour savoir ce que signifie chacune des balises, il faut regarder le fichier tagset.LT.txt dans le dossier languageTool/LanguageTool-1.1/resource/fr.

Correction Grammaticale Depuis Python

Python

Discussions similaires

Partager

Partager