Bonjour,
Je travaille actuellement sur un module de PosTagging pour le français. J'aimerais pouvoir compter les phrases ainsi que le nombre total de tokens traités par le module à l'aide d'un code perl uniligne.
Imaginons une commande du style :
Et imaginons la sortie suivante :
Code : Sélectionner tout - Visualiser dans une fenêtre à part $ echo "Les poules du couvent couvent. Ceci est ma deuxième phrase." | java -Xmx1024M -jar leModulePosTag.jar
Dans cette sortie, nous avons 2 phrases et 12 tokens.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13 0 Les DET 1 poules NC 2 du P+DET 3 couvent NC 4 couvent V 5 . PONCT 0 Ceci PRO 1 est V 2 ma DET 3 deuxième ADJ 4 phrase NC 5 . PONCT
Comment faire pour avoir une sortie dans le style wc -l avec une sortie qui ressemblerait à ceci :
Avez-vous des idées?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3 $ echo "Les poules du couvent couvent. Ceci est ma deuxième phrase." | java -Xmx1024M -jar leModulePosTag.jar | perl -ne ' ... ' 10 tokens 2 phrases
Partager