clone de la fonction ispell

**Oceane35** · 11/11/2013, 21h39

salut,

j'ai un petit exo en perl à faire pour ma 3e année de fac et je n'en viens pas à bout... j'ai un fichier 'dictionnaire' son rôle est je pense plutôt implicite, à savoir un mot par ligne.
le but est de scanner un texte et proposer une correction orthographique des mots absents dans le dictionnaire par des mots qui diffèrent d'au plus de 2 caractères.

voilà ce que j'ai fait pour le moment :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
#! /usr/bin/perl
use warnings;
use strict;
 
 
 
my $DICO_FNAME = "dictionnaire";
 
sub word_exists {
  if (!defined($_[0])) {
    return 0;
  }
 
  open(DICO, "<", $DICO_FNAME);
  while(defined(my $word = <DICO>)) {
    if($word eq $_[0]) {
      return 1;
    }
  }
  close(DICO);
  return 0;
}
 
sub find_similar {
  if(!defined($_[0])) {
    return 0;
  }
 
  open(DICO, "<", $DICO_FNAME);
  my @words = ();
 
  while(defined(my $dword = <DICO>)) {
    if(length($dword) == length($_[0])) {
      my @string = split(//, $_[0]);
      my @chars = split(//, $dword);
      my $faults = 0;
 
      for my $char (@chars) {
        my $cp = shift(@string);
        if(defined($cp)) {
          if ($char ne $cp) {
            $faults++;
          }
        }
      }
      if($faults < 3) {
        push(@words, $dword);
      }
    }
  }
  return @words;
}
 
while(defined(my $word = <STDIN>)) {
  $word = lc($word);
  if(!word_exists($word)) {
    my @similis = find_similar($word);
    print "Corrections possibles : @similis\n";
  } else {
    chomp($word);
    print "$word : correct.\n";
  }
}

mais quand je lance

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

./ispell.pl unmot

rien ne se passe...

je ne sais pas si j'ai bien expliqué mon problème en tout cas je remercie la communauté par avance
bonne soirée

**cmcmc** · 12/11/2013, 10h52

C'est très inefficace (moi je lirais le dictionnaire une fois pour toutes plutôt que deux fois par mot

) mais ça devrait fonctionner... Il est possible que les fins de lignes ne soient pas encodées de la même manière dans dictionnaire et dans STDIN (par exemple, l'un utilise \r\n, et l'autre seulement \n), ou qu'il y ait des espaces excédentaires dans les fichiers en tête ou fin de ligne. Pour te protéger contre cela élimine les fins de ligne lors de la lecture de dictionnaire et de STDIN, par exemple

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
  while(defined(my $dword = <DICO>)) {
    $dword =~ s/[\r\n]*$//;
    ...

De la même manière tu peux éliminer les espaces par

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

    $dword =~ s/\s//g;

Par ailleurs, tu forces le mot lu de STDIN en minuscules. Est-ce que le contenu du dictionnaire est en minuscules également ? Sinon ajoute également

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

    $dword = lc($dword);

**Lolo78** · 12/11/2013, 19h19

Stocke les mots (en bas de casse, sans retours à la ligne) de ton dictionnaire dans un hash (comme clés du hash). Il suffit ensuite de tester si le mot existe dans le hash, ce qui considérablement plus rapide (potentiellement des milliers ou des dizaines de milliers de fois plus rapide, voire plus, selon la taille de ton dico

Pour le recherche de mots "ressemblants, c'est plus compliqué. Une solution est d'établir un second hash (ou une structure de données plus complexe) avec les mots "normalisés" , par exemple avec les lettres des mots triés par ordre alphabétique ou en utilisant une forme de fonction de hachage sur les lettres. La longueur du mot est aussi utilisable comme discriminant partiel. Il est également possible de ne garder qu'un sous-ensemble des lettres pour accélérer la recherche. Bref autant de moyens d'obtenir assez rapidement une liste assez petite de candidats potentiels qu'il faut ensuite filtrer.

Il faut sans doute commencer par écrire une fonction calculant la "distance" entre deux mots (plus ou moins de deux lettres d'écart).

**Philou67430** · 13/11/2013, 14h26

Si tu as le droit d'utiliser des modules (j'en doute), une distance possible entre mots est la distance de Levenshtein accessible via le module Text::Levenshtein.

**6ril23** · 13/11/2013, 17h39

Sinon tu peux peut être stocker tes mots du dictionnaire sous la forme d'arbre et le parcourir quand tu n'as pas le mot-clé

je suis pas très familier avec le concept mais je pense que ça peut être une approche

**Lolo78** · 13/11/2013, 19h14

Envoyé par Philou67430

Si tu as le droit d'utiliser des modules (j'en doute), une distance possible entre mots est la distance de Levenshtein accessible via le module Text::Levenshtein.

Il ne doit pas être trop compliqué d'implanter cette distance ou une version simplifiée pour le problème en question.

Sinon, pour trouver des idées d'algorithmes, tu peux aussi consulter la littérature sur la distance de Hamming et les k-différences de Wu-Mamber.

**Philou67430** · 14/11/2013, 09h30

Non, pas compliqué d'implémenter quelque chose, vu que dans le lien wikipédia, il y a déjà un algorithme

clone de la fonction ispell

Langage Perl

Discussions similaires

Partager

Partager