Bonjour,

Je travaille actuellement sur un module de PosTagging pour le français. J'aimerais pouvoir compter les phrases ainsi que le nombre total de tokens traités par le module à l'aide d'un code perl uniligne.

Imaginons une commande du style :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
 $ echo "Les poules du couvent couvent. Ceci est ma deuxième phrase." | java -Xmx1024M -jar leModulePosTag.jar
Et imaginons la sortie suivante :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
0	Les	DET
1	poules	NC
2	du	P+DET
3	couvent	NC
4	couvent	V
5	.	PONCT
 
0	Ceci	PRO
1	est	V
2	ma	DET
3	deuxième	ADJ
4	phrase	NC
5	.	PONCT
Dans cette sortie, nous avons 2 phrases et 12 tokens.

Comment faire pour avoir une sortie dans le style wc -l avec une sortie qui ressemblerait à ceci :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
$ echo "Les poules du couvent couvent. Ceci est ma deuxième phrase." | java -Xmx1024M -jar leModulePosTag.jar | perl -ne ' ... '
10 tokens 
2 phrases
Avez-vous des idées?