Gestion des césures, syllabes - coupures de mots
Bonsoir à tous,
Juste par curiosité, je me demandais si Perl qui est un très bon langage de traitement de texte possédait un module qui permet de gérer les coupures de mots avec ou sans césures. Elles sont généralement utiles en fin de ligne justifiée afin de couper le mot au bon endroit si possible. Bien évidement, cela dépend de chaque langue, mais en l’occurrence en français, est-ce qu'un module est existant sur le CPAN.
Par la même occasion, cela revient à être capable de couper correctement un mot en identifiant les syllabes et les césures dans les règles de l'art.
Prenons pour exemple le mot : représentation.
Couper ce mot revient à le tronquer de la sorte : re-pré-sen-ta-tion. Néanmoins, une césure ne doit pas laisser un mot de moins de trois lettres en début ou fin de ligne. De ce fait, la bonne coupure est repré-sen-ta-tion.
Il serait intéressant d'avoir un module Perl qui soit capable de faire ce genre de coupures :aie:. Vous en connaissez ? Dans d'autres langages cela doit exister vu que les coupures de mots sont gérés dans Word, OpenOffice... Cela permettrait d'améliorer les modules de coupure de texte comme Text::Wrap, Text::Format...
Le seul module que j'ai trouvé est : Text::Hyphen qui utilise l'algorithm Knuth-Liang que je ne connais pas.
Code:
1 2 3 4 5 6
| use Text::Hyphen;
my $hyphenator = new Text::Hyphen;
print $hyphenator->hyphenate('representation');
# prints rep-re-sen-ta-tion |
Qu'en pensez-vous de l'idée d'avoir ce genre de module, existe-il déjà ?