IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Evaluation de proximité syntaxique


Sujet :

Algorithmes et structures de données

  1. #1
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut Evaluation de proximité syntaxique
    Bonjour a tous, j'ai besoin d'un coupe de main pour déterminer la proximité syntaxique de différent termes

    J'ai fait mes testes sur un corpus de mots codé en utf-8, j'utilise pour déterminer la proximité l'algo de Levensthein. Tout marche au poil tant que les mots de contiennent pas d'accent, par exemple la distance entre zero et zero vaut 0 jusque la tout vas bien mais entre zero et zéro elle diffère j'ai procédé a de nombreux essaie il semble que dans la fourchette de valeur de 0 - 6 ont peu considéré deux mot comme a peut prèt identique.

    Mon observation est elle juste ?

    De plus une autre question ce pose, si j'évalue zéro et zéra comment faire pour que zéra ne soit pas pris en compte ? parce que je veut bien garder zéro zero mais pas zéra puisque sa n'a rien a voir meme si sa distance est de 1

  2. #2
    Membre expert
    Avatar de ®om
    Profil pro
    Inscrit en
    Janvier 2005
    Messages
    2 815
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2005
    Messages : 2 815
    Points : 3 080
    Points
    3 080
    Par défaut
    Si c'est juste un problème d'accents, tu remplaces tous les é è etc... par e avant de faire la comparaison...

  3. #3
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Ce n'est pas aussi simple etant donné que certain des documents que mon soft aura a traité seront rédigé en coréen , japonais , anglais etc...

  4. #4
    Membre confirmé
    Profil pro
    Directeur Scientifique
    Inscrit en
    Avril 2005
    Messages
    419
    Détails du profil
    Informations personnelles :
    Âge : 51
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Directeur Scientifique

    Informations forums :
    Inscription : Avril 2005
    Messages : 419
    Points : 554
    Points
    554
    Par défaut
    Je ne connais pas dans les détails d'algo que tu cites mais la distance d'édition peut très bien prendre en compte des distances différentes "caractère à caractère", ce qui permet de dire que la distance é<->e est très faible (voire nulle) alors que celle o<->a est plus importante. As-tu regardé cette piste?

  5. #5
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Je n'avais pas pensé a cette solution, il suffirait donc de faire une évaluation sur tout le mot puis de découper compter la longueur du mot a comparer a celle du comparant ( pour éviter de comparer un caractère et du vide ) puis je compare chacune des lettres du mot d'origine avec le mot cible

    Je vais essayer sa je vous tient au jus

  6. #6
    Membre régulier
    Inscrit en
    Mai 2003
    Messages
    86
    Détails du profil
    Informations forums :
    Inscription : Mai 2003
    Messages : 86
    Points : 94
    Points
    94
    Par défaut
    Bonjour,
    Théoriquement pour comparer 2 chaines de caractères unicodes il faut d'abord les normaliser. Ensuite tu peux choisir d'ignorer certaines catégories de ces caractères.

  7. #7
    Membre confirmé
    Profil pro
    Directeur Scientifique
    Inscrit en
    Avril 2005
    Messages
    419
    Détails du profil
    Informations personnelles :
    Âge : 51
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Directeur Scientifique

    Informations forums :
    Inscription : Avril 2005
    Messages : 419
    Points : 554
    Points
    554
    Par défaut
    Citation Envoyé par scaleo
    Je n'avais pas pensé a cette solution, il suffirait donc de faire une évaluation sur tout le mot puis de découper compter la longueur du mot a comparer a celle du comparant ( pour éviter de comparer un caractère et du vide ) puis je compare chacune des lettres du mot d'origine avec le mot cible
    A priori il n'est pas nécessaire de faire le découpage en mot mais on peut tout comparer caractère par caractère. En pratique, si les textes sont longs, j'imagine qu'il est utile de décomposer en mots...
    Une bonne référence est le livre Algorithmique du texte.

  8. #8
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Citation Envoyé par tomtom7
    Bonjour,
    Théoriquement pour comparer 2 chaines de caractères unicodes il faut d'abord les normaliser. Ensuite tu peux choisir d'ignorer certaines catégories de ces caractères.
    Mais le problème c'est que ce ne sont pas forcément des chaines unicode des deux cotés par exemple zero c'est de l'ASCII et zéro de l'unicode mais j'ai remarqué qu'entre 1 et 6 ont peut dire que deux mots sont très proche

  9. #9
    Membre éclairé Avatar de HanLee
    Profil pro
    Inscrit en
    Mai 2004
    Messages
    738
    Détails du profil
    Informations personnelles :
    Âge : 37
    Localisation : France, Rhône (Rhône Alpes)

    Informations forums :
    Inscription : Mai 2004
    Messages : 738
    Points : 871
    Points
    871
    Par défaut
    Citation Envoyé par scaleo
    Mais le problème c'est que ce ne sont pas forcément des chaines unicode des deux cotés par exemple zero c'est de l'ASCII et zéro de l'unicode mais j'ai remarqué qu'entre 1 et 6 ont peut dire que deux mots sont très proche
    Oui ben convertis toutes tes chaînes en unicode avant la comparaison, faut bien partir d'un référentiel commun.

Discussions similaires

  1. analyse syntaxique et evaluation
    Par wonderx dans le forum Caml
    Réponses: 10
    Dernier message: 10/02/2009, 23h20
  2. Un outil pour evaluer les dépendances
    Par karbone dans le forum Choisir un environnement de développement
    Réponses: 2
    Dernier message: 30/03/2004, 14h36
  3. Coloration syntaxique
    Par _-Sky-_ dans le forum Composants
    Réponses: 4
    Dernier message: 03/01/2004, 21h58
  4. Coloration syntaxique ASM dans un RichEdit
    Par Crick dans le forum Composants VCL
    Réponses: 5
    Dernier message: 20/12/2002, 01h53
  5. Evaluation d’expression
    Par mobisky dans le forum Algorithmes et structures de données
    Réponses: 4
    Dernier message: 09/09/2002, 11h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo