Compréhension de utlm_match edit_distance_similary

**rv26t** · 17/10/2018, 23h45

Bonjour,

Je cherche à cerner la logique de fonctionnement de la méthode utlm_match.edit_distance_similary.

Autant pour

tiré de la doc oracle "docs.oracle.com/..."
EDIT_DISTANCE Function

This function calculates the number of insertions, deletions or substitutions required to transform string-1 into string-2.

cela est très clair,

autant

EDIT_DISTANCE_SIMILARITY Function

This function calculates the number of insertions, deletions or substations required to transform string-1 into string-2, and returns the Normalized value of the Edit Distance between two Strings. The value is typically between 0 (no match) and 100 (perfect match)

reste très flou, surtout qu'avec une variation de la longueur des chaînes de caractères, le % résultant est différent. Alors qu'il est stable avec edit_distance.

J'ai vu que cela est basé sur un système de rang, mais la logique est difficile à percevoir.

Waldar avait écrit un article dont le lien est indiqué dans un de ses messages oracle et utl_match, mais le lien est mort

Avez-vous des pistes, des liens permettant de cerner le fonctionnement de cette méthode ?

Le but est présenter une probabilité de doublons entre des chaînes de caractères, et cela est plus clair pour un utilisateur avec des % que des variations de valeurs.

merci

**SQLpro** · 18/10/2018, 10h10

Sur un petit littéral, mettons de 3 caractères ayant un seul caractère différent de la chaine de référence l'édit distance sera de 1 mais le pourcentage de correctif de 33,33. Pour une chaine contenant 100 caractères, l'édit distance sera toujours de 1, mais le pourcentage sera de 99...

Plus un littéral est petit et plus l'incertitude est grande pour un nombre d'erreur identique (loi de SHANNON).

A +

**rv26t** · 18/10/2018, 11h22

J'avais bien vu cette proportionnalité, mais il reste difficile de pondérer ce pourcentage en fonction de la longueur de la chaine de caractère pour un risque probable d'erreur de saisie.
Un utilisateur qui verra un risque de doublon à 30% ne se posera pas trop de question et jugera qu'il ne s'agit pas d'un doublon.
Je vais donc partir sur la distance. (plusieurs chaine de caractères sont prise en compte pour cette recherche - nom - prénom - date de naissance - cela limite les incertitudes)

Merci.

**tbc92** · 18/10/2018, 13h44

Le pourcentage qui est calculé par cette fonction n'est pas un risque de doublon, c'est un pourcentage de caractères différents (ou un pourcentage de caractères identiques, selon les fonctions) Ca n'a rien à voir.

Si j'ai 2 caractères d'écart entre 2 chaines, l'info est insuffisante pour conclure quoi que ce soit. 2 caractères d'écart sur une chaine de longueur 3, c'est une différence énorme. Alors que 2 caractères d'écart sur une chaine de longueur 50, c'est peu.
En raisonnant en pourcentage, l'analyse est plus simple (ou moins compliquée, comme tu veux).
2 caractères d'écart sur une chaine de longueur 3, ça veut dire 66% de caractères différents... donc aucune ambiguité, les chaines sont différentes.
2 caractères d'écart sur une chaine de longueur 50, ça veut dire 4% de caractères différents... et là, on doit se poser la question de la faute de frappe...

**rv26t** · 24/10/2018, 14h12

Envoyé par tbc92

Le pourcentage qui est calculé par cette fonction n'est pas un risque de doublon, c'est un pourcentage de caractères différents (ou un pourcentage de caractères identiques, selon les fonctions)

J'avais bien suivi, le problème n'est pas la, il est du point de vue de l'utilisateur et de l'interprétation qu'il peut en faire.
Pour info, pour cette méthode, si les chaînes sont identiques le résultat est de 100%.

Je n'ai jamais dit que cette méthode donnait un risque de doublon, j'ai dit "Un utilisateur qui verra un risque de doublon à 30%", c'est donc l'interprétation qu'il risque d'en faire.
Elle ne peut donc pas être présentée telle quelle à l'utilisateur.

C'est plus simple que je travaille sur les distances avec les différents cas de figures possibles, pour ensuite préparer la présentation faite aux utilisateurs.

Compréhension de utlm_match edit_distance_similary

SQL Oracle

Vue hybride

Discussions similaires

Partager

Partager