Bonjour à tous,

Je reviens vers ce forum car je suis face à un problème dont l'angle d'approche m'échappe toujours.
Le sujet est assez simple pourtant, je vais essayer de résumer ça:

- Je possède un ensemble de données A de personnes (le nom, l'addresse, les coordonnées géographiques, l'activité professionnelle)
- Je reçois un ensemble de données B de personnes avec le même type d'information

Mon problème général est de reconnaître dans le set B qui est déjà dans mon set A.

Pour ce faire, j'ai déjà défini des fonctions de scoring entre les noms, entre les addresses, entre les coordonnées etc. J'obtiens donc à chaque fois des scores pour chaque composantes de ma reconnaissance entre Ai et Bj

On en arrive à la question:
J'aimerais calculer le score final entre deux éléments Ai et Bj sous forme d'une moyennes pondérée de mes composantes.
=> comment est-ce que je pourrais définir au mieux ces pondérations tq les "vrai matching" possèdent des scores maximum (par exemple si A3 et B154 définissent la même personne il faudrait avoir un score le plus grand possible pour S(A3,B154) et S(A3,B154)>=S(Ai,Bj))
=> mes deux sets A et B peuvent être de grandes tailles (plusieurs milliers de lignes)
=> il n'y a aucun moyen automatique de vérifier que les reconnaissances sont correctes, donc je ne peux "valider" les propositions que manuellement sur un ensemble assez limité de cas.

Est-ce qu'il y aurait une technique de calibration qu'il serait possible de faire sur un ensemble de taille réduite dans des cas de reconnaissances comme celui-ci où la réponse n'est pas connue d'avance ?

Merci à vous,

Nicolas

P.S. J'espère être dans la bonne catégorie du forum