IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

VB.NET Discussion :

Calculer % de ressemblance entre 2 chaines de caractères [Débutant]


Sujet :

VB.NET

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Homme Profil pro
    Ingénieur
    Inscrit en
    Octobre 2013
    Messages
    101
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Ingénieur

    Informations forums :
    Inscription : Octobre 2013
    Messages : 101
    Par défaut Calculer % de ressemblance entre 2 chaines de caractères
    Bonjour à tous,

    Je souhaite calculer le % de ressemblance entre 2 chaînes de caractères. J'ai trouvé sur internet quelques discussions, quelques bout de codes, mais pour des chaines de caractères très courtes (1 mot, voir 2). (algorithme de Levenshtein, ou procédure visant à comparer des noms de famille...). Et la plupart ne comparent que la longueur des chaînes et non le contenu.

    Mes chaînes de caractères,qui sont des résumés d'articles extraient de différentes bases de données, ont une longueur comprise entre 50 et 150 mots.
    Malheureusement j'ai remarqué que sur 1000 résumés, venant 2 bases de données différentes, j'obtient une bonne 50ène de doublons...

    Selon vous quel est le meilleur moyen de calculer le % de ressemblance entre eux, dans le but de supprimer les doublons?

    Pour info les strings sont stockés dans des fichiers textes et je suis sur une winform.

    Merci d'avance!

  2. #2
    Membre expérimenté
    Avatar de Kropernic
    Homme Profil pro
    Analyste / Programmeur / DBA
    Inscrit en
    Juillet 2006
    Messages
    3 932
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : Belgique

    Informations professionnelles :
    Activité : Analyste / Programmeur / DBA
    Secteur : Distribution

    Informations forums :
    Inscription : Juillet 2006
    Messages : 3 932
    Par défaut
    Je ne sais pas quelle base de données tu utilises mais avec SQL Server, on peut utiliser SOUNDEX pour comparer des chaines de caractères.

    Il y a peut-être l'équivalent pour la tienne si ce n'est pas sql server. J'ignore si cet algorithme existe en .NET ...

  3. #3
    Membre confirmé
    Homme Profil pro
    Ingénieur
    Inscrit en
    Octobre 2013
    Messages
    101
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Ingénieur

    Informations forums :
    Inscription : Octobre 2013
    Messages : 101
    Par défaut
    Merci, non je ne travaille pas avec sql server, les articles sont issues de base de données privées appartenant à des laboratoires. Moi je les exportent en fichier textes pas le choix.

  4. #4
    Membre expérimenté
    Avatar de Kropernic
    Homme Profil pro
    Analyste / Programmeur / DBA
    Inscrit en
    Juillet 2006
    Messages
    3 932
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : Belgique

    Informations professionnelles :
    Activité : Analyste / Programmeur / DBA
    Secteur : Distribution

    Informations forums :
    Inscription : Juillet 2006
    Messages : 3 932
    Par défaut
    Dans ce cas, ce n'est surement pas la meilleure méthode mais voici (en gros) ce que je ferais :

    1. ouvrir le premier fichier
    2. lire un nombre de bits donné
    3. ouvrir le second fichier
    4. lire le même nombre de bits
    5. retirer toutes les ponctuations et espaces de la chaîne obtenue en 2
    6. retirer toutes les ponctuations et espaces de la chaîne obtenue en 4
    7. si une des chaînes obtenues en 5 et 6 est plus petite que l'autre (sinon sauter cette étape) :
      1. extraire les x premiers caractères de la chaîne la plus longue où x est le nombre de caractère de la chaîne la plus courte
      2. réserver les caractères restant pour plus tard

    8. si les chaînes obtenues en 5 et 6 sont de même longueurs, comparer leurs caractères. sinon, sauter cette étape
    9. comparer les caractères de la chaîne obtenue en 7.1. avec la chaîne la plus courte de celles obtenues en 5 et 6
    10. recommencer à partir de 2. jusqu'à la fin des fichiers.

  5. #5
    Expert éminent Avatar de Pol63
    Homme Profil pro
    .NET / SQL SERVER
    Inscrit en
    Avril 2007
    Messages
    14 202
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France, Puy de Dôme (Auvergne)

    Informations professionnelles :
    Activité : .NET / SQL SERVER

    Informations forums :
    Inscription : Avril 2007
    Messages : 14 202
    Par défaut
    ca dépend de ce que tu appelles ressemblance
    si c'est phrases identiques, des mots qui se suivent, des mots identiques dans une phrase qui ne se suivent pas forcément ...

    et est-ce que tu veux calculer le % de ressemblance ou retirer des morceaux dans un texte
    Cours complets, tutos et autres FAQ ici : C# - VB.NET

  6. #6
    Membre confirmé
    Homme Profil pro
    Ingénieur
    Inscrit en
    Octobre 2013
    Messages
    101
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Ingénieur

    Informations forums :
    Inscription : Octobre 2013
    Messages : 101
    Par défaut
    Le but final et de supprimer les doublons. Comparer 2 textes et dire si ils sont exactement identiques ou non serai simple.
    Mais mes strings proviennent de sources différentes et peuvent contenir des petites annotations en plus du genre "vient de la base un-tel" ou de très légers changements, sans pour autant que le "vrai" contenu soit différent. C'est pour cela que j'aimerai calculer un genre de % de ressemblance : combien de terme dans le 1 sont contenus dans le 2. Peu importe l'ordre dans un premier temps.

    Mais je pense pouvoir réaliser cette procédure tout seul (aussi fastidieux que ça soit), je venais surtout vers vous pour voir si il n'y avait pas une fonction spécialement conçu pour ce genre de chose (apportant peut etre de la rapidité et de l'efficacité, car j'ai des milliers de string a comparer).
    Si ça n'existe pas, tant pis je ferai de mon mieux avec ce que je sais faire ^^

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 2
    Dernier message: 17/06/2008, 21h14
  2. Réponses: 6
    Dernier message: 15/05/2008, 15h20
  3. requête where entre deux chaines de caractères
    Par soltani1 dans le forum Développement
    Réponses: 2
    Dernier message: 04/10/2007, 09h34
  4. requête where entre deux chaines de caractères
    Par soltani1 dans le forum MS SQL Server
    Réponses: 2
    Dernier message: 04/10/2007, 09h34
  5. espace entre deux chaines de caractères
    Par Pitou5464 dans le forum Access
    Réponses: 2
    Dernier message: 09/08/2006, 12h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo