Bonjour


J'ai un data set de l'ordre du million d'éléments. Ces éléments ont une quarantaine d'attributs, une vingtaine de réels et une vingtaine de booléens.
J'arrive à identifier un sous ensemble de qq milliers qui sont à mes yeux significatifs (dans un temps tout à fait acceptable en plus ). J'aimerai maintenant pouvoir faire une requête de voisinage approximative d'un élément de l'ensemble de départ sur cet ensemble de référence.

Même si la magnitude des éléments réels est très différentes (certaines de l'ordre 10^6 et d'autres 10^-5) je peux normaliser tout ça, mais c'est du point des booléens que je me demande si je ne peux pas optimiser un peu tout ça.
Euclidien, cosinus, etc... ?

Merci pour vos idées?