IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Comparaison / similitude de texte d'adresse


Sujet :

Algorithmes et structures de données

  1. #1
    Rédacteur/Modérateur

    Avatar de Jean-Philippe André
    Homme Profil pro
    Développeur VBA/C#/VB.Net/Power Platform
    Inscrit en
    Juillet 2007
    Messages
    14 595
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur VBA/C#/VB.Net/Power Platform
    Secteur : Finance

    Informations forums :
    Inscription : Juillet 2007
    Messages : 14 595
    Points : 34 274
    Points
    34 274
    Par défaut Comparaison / similitude de texte d'adresse
    Salut,

    j'aurais voulu avoir votre avis sur les méthodes les plus efficaces pour faire de la comparaison de texte.

    Typiquement je souhaite comparer 2 noms de sociétés ou 2 adresses, et fonction du resultat je considère que les valeurs sont bonnes ou non.


    Exemples
    - "JPcheck Consulting" vs "JPCheck Consulting EURL" doit être OK
    - "66 avenue des Champs Elysees" vs "66 av des Champs Elysees" doit aussi être OK

    Les algo parmi lesquels j'ai des pistes pour l'instant :
    Boyer-Moore
    Knuth-Morris-Pratt

    j'ai testé la distance de Levenshtein mais en cas de nom trop court (je fais un Leven / longueur max des chaines), j'ai un OK au lieu d'un NOK.

    Les contraintes qui me posent particulièrement problème :
    - les abréviations qui peuvent être de tout type (adresse mais aussi type de société)
    - le nombre de mots à comparer qui diffère

    vous auriez des recommandations à me faire ?
    Cycle de vie d'un bon programme :
    1/ ça fonctionne 2/ ça s'optimise 3/ ça se refactorise

    Pas de question technique par MP, je ne réponds pas

    Mes ouvrages :
    Apprendre à programmer avec Access 2016, Access 2019 et 2021

    Apprendre à programmer avec VBA Excel
    Prise en main de Dynamics 365 Business Central

    Pensez à consulter la FAQ Excel et la FAQ Access

    Derniers tutos
    Excel et les paramètres régionaux
    Les fichiers Excel binaires : xlsb,

    Autres tutos

  2. #2
    Invité
    Invité(e)
    Par défaut
    slt,

    c'est pas des noms de méthode à proprement parler et je sais pas si ca rentre dans ce que tu cherches mais

    si tu as une adresse de référence exemple correctement formatée,
    ne peux-tu pas structurer ton adresse?
    numéro, nomVoie (rue|av|boulevard), nom(napoléon), [scté(st, société), nomSociété] cedex, ville
    fin bref...

    tu mappes ton adresse de référence et à comparer dans un arbre.
    Avec des classes d equivalence pour av, avenue; bd,boulevard

    puis ton but c'est alors de comparer deux arbres

    l'idée derrière ca, c'est que tu peux créer une distance qui est pondérée par les éléments de l'adresse (par exemple le numéro et le nom sont très importants) alors que le nom de la société l'est moins
    (une absence est ok, une différence non par exemple)

    après ca suppose que tu aies une adresse en référence correctement formatée

    ( je n'ai pas de référence, juste une idée matinale)

  3. #3
    Rédacteur/Modérateur

    Avatar de Jean-Philippe André
    Homme Profil pro
    Développeur VBA/C#/VB.Net/Power Platform
    Inscrit en
    Juillet 2007
    Messages
    14 595
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur VBA/C#/VB.Net/Power Platform
    Secteur : Finance

    Informations forums :
    Inscription : Juillet 2007
    Messages : 14 595
    Points : 34 274
    Points
    34 274
    Par défaut
    Hello,

    c'est effectivement la solution que j'aurais pu prendre si mes adresses n'étaient pas mondiales (fr, anglais, allemand, etc.)

    faire un dictionnaire des transformations pourra se faire, mais c'est une tâche un peu colossale je trouve
    Cycle de vie d'un bon programme :
    1/ ça fonctionne 2/ ça s'optimise 3/ ça se refactorise

    Pas de question technique par MP, je ne réponds pas

    Mes ouvrages :
    Apprendre à programmer avec Access 2016, Access 2019 et 2021

    Apprendre à programmer avec VBA Excel
    Prise en main de Dynamics 365 Business Central

    Pensez à consulter la FAQ Excel et la FAQ Access

    Derniers tutos
    Excel et les paramètres régionaux
    Les fichiers Excel binaires : xlsb,

    Autres tutos

  4. #4
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mai 2010
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 10
    Points : 8
    Points
    8
    Par défaut
    Tu as regarde les expressions régulières floues ?

    http://en.wikipedia.org/wiki/Regular...ar_expressions

    Cette librairie peut utile:

    http://laurikari.net/tre/about/

    J'en sais pas plus que toi, mais ce sujet m’intéresse aussi donc tiens nous au courant de ton avancement !

    N.B.: Ce serait intéressant de travailler en Unicode pour pouvoir comparer deux chaines de différentes langues

  5. #5
    Rédacteur/Modérateur

    Avatar de Jean-Philippe André
    Homme Profil pro
    Développeur VBA/C#/VB.Net/Power Platform
    Inscrit en
    Juillet 2007
    Messages
    14 595
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur VBA/C#/VB.Net/Power Platform
    Secteur : Finance

    Informations forums :
    Inscription : Juillet 2007
    Messages : 14 595
    Points : 34 274
    Points
    34 274
    Par défaut
    Hello,

    j'ai utilisé la distance de levenshtein au final. Il est intéressant potentiellement de détecter aussi la partie numérique de l'adresse et de la comparer (3 et 4 de la même rue/avenue, ce n'est plus la même adresse.
    Cycle de vie d'un bon programme :
    1/ ça fonctionne 2/ ça s'optimise 3/ ça se refactorise

    Pas de question technique par MP, je ne réponds pas

    Mes ouvrages :
    Apprendre à programmer avec Access 2016, Access 2019 et 2021

    Apprendre à programmer avec VBA Excel
    Prise en main de Dynamics 365 Business Central

    Pensez à consulter la FAQ Excel et la FAQ Access

    Derniers tutos
    Excel et les paramètres régionaux
    Les fichiers Excel binaires : xlsb,

    Autres tutos

  6. #6
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mai 2010
    Messages
    10
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2010
    Messages : 10
    Points : 8
    Points
    8
    Par défaut
    A partir de quelle valeur de distance levenshtein tu considères que deux chaines sont asses semblables ? Quelle est l’unité de grandeur de cette valeur ?

    Tu as pu faire des tests ?

  7. #7
    Rédacteur/Modérateur

    Avatar de Jean-Philippe André
    Homme Profil pro
    Développeur VBA/C#/VB.Net/Power Platform
    Inscrit en
    Juillet 2007
    Messages
    14 595
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : Canada

    Informations professionnelles :
    Activité : Développeur VBA/C#/VB.Net/Power Platform
    Secteur : Finance

    Informations forums :
    Inscription : Juillet 2007
    Messages : 14 595
    Points : 34 274
    Points
    34 274
    Par défaut
    J'ai joué sur Dist_Lev / Min (Longueur texte 1, Longueur texte 2)

    Et j'ai considéré qu'au delà de 0.7, c'était "différent".
    Cycle de vie d'un bon programme :
    1/ ça fonctionne 2/ ça s'optimise 3/ ça se refactorise

    Pas de question technique par MP, je ne réponds pas

    Mes ouvrages :
    Apprendre à programmer avec Access 2016, Access 2019 et 2021

    Apprendre à programmer avec VBA Excel
    Prise en main de Dynamics 365 Business Central

    Pensez à consulter la FAQ Excel et la FAQ Access

    Derniers tutos
    Excel et les paramètres régionaux
    Les fichiers Excel binaires : xlsb,

    Autres tutos

  8. #8
    Membre expérimenté
    Homme Profil pro
    Attaché statisticien
    Inscrit en
    Mai 2011
    Messages
    687
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Attaché statisticien
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Mai 2011
    Messages : 687
    Points : 1 581
    Points
    1 581
    Par défaut
    Une thèse intéressante pour une éventuelle application dans les cas envisagés dans ce fil :

    http://www.cs.utexas.edu/~ml/papers/...rtation-06.pdf

Discussions similaires

  1. conversion texte en adresse web
    Par Leon Ira dans le forum Entrée/Sortie
    Réponses: 4
    Dernier message: 07/08/2007, 03h01
  2. Comparaison de deux textes
    Par fxparlant dans le forum Langage
    Réponses: 1
    Dernier message: 31/03/2007, 13h54
  3. [Mail] fichier texte et adresse mail
    Par pharaonline dans le forum Langage
    Réponses: 2
    Dernier message: 21/03/2006, 18h34
  4. [Mail] Convertir texte en adresse mail
    Par Jean-Michel dans le forum Langage
    Réponses: 3
    Dernier message: 07/09/2005, 04h40
  5. Comparaison de fichiers text
    Par mick84m dans le forum Shell et commandes GNU
    Réponses: 2
    Dernier message: 22/07/2005, 16h48

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo