Trouver les uniques de tuples de dimensions arbitraires

**Grasshoper** · 02/12/2020, 20h46

Bonjour à toutes et à tous,

J'ai une grande (10^10 voire 10^15) collection de points dans un espace en d-dimensions (d pouvant prendre pour valeur d={1,2,3,4,...}). Ces points sont des entiers positifs ou négatifs (Z).
Je cherche simplement à connaitre, dans cette collection et le plus rapidement possible, le nombre de points uniques car de nombreux points sont répétés (valeurs identiques) à des emplacements aléatoires de ma collection.
Par exemple en dimension d=3 ça donnerait quelque chose comme ça:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
1, -1, 10;
-1, 50, -224;
0, 0, 0; 
-2, -1, 3;
-1, 1, 10;
1, -1, 10;
-1, 50, -224;

etc.
Dans cet exemple il y a 5 points uniques (les 1ers et 2emes tuples sont répétés).
Dans mon soucis de performance, je cherche quelle structure (tuples? list? autre?) serait la plus efficace pour traiter cette question.

Mon idée première était d'utiliser Amardillo et de stocker simplement les points dans un tableau en d-dimensions (comme dans l'exemple) et de compter les lignes uniques (1 ligne correspond à un tuple), grâce à la commande size(unique(Collection)). Malheureusement, à contrario de Matlab (Armadillo est inspiré de Matlab), unique() est uniquement implémentée pour les éléments d'un vecteur (il ne trouve pas les tuples). J'imagine cependant qu'il doit exister plusieurs solutions efficaces à ce problème (dans la STL ou ailleurs). Mais je ne connais pas suffisamment bien le langage pour m'en sortir de manière performante.

Merci pour vos éclairages!

**Bousk** · 02/12/2020, 21h36

set ou mieux : unordered_set ?
Quant à l'efficacité, ça dépendra de ta fonction de hash, et de la quantité de données. Y'a pas de miracles : pour vérifier si la valeur est déjà présente, il faut vérifier si elle l'est ou non dans l'ensemble des données.

**jo_link_noir** · 02/12/2020, 21h38

Il faudrait indiquer comme tu as procédé, parce que std::unique fonctionne très bien avec des collections qui contiennent des tuples. Et pour des comparaisons spécifiques, on peut toujours passer un comparateur comme 3ème paramètre. D'ailleurs, std::unique, comme tous les algorithmes de la STL, se fiche du type de container, ce qui l'intéresse est la catégorie de l'itérateur qu'on lui passe (ForwardIterator ici).

Mais un des prérequis de std::unique est d'avoir une collection triée. Il faudra probablement utiliser std::sort avant.

Une autre approche est d'utiliser std::unordered_set (constructeur (2) avec potentiellement une valeur de bucket_count élevée (il faudrait faire des mesures)).

**Grasshoper** · 04/12/2020, 09h14

Merci pour ces retours!
Et bien j'ai pour l'instant la solution codée en Matlab et une partie en C++ mais je souhaitais savoir vers quelle structure m'orienter avant de commencer à implémenter des tuples ou autres listes.
Du coup je pars sur des tuples avec un combo std::sort() puit std::unique()
Edit: je vois que unordered_set est bien efficace aussi, du coup j'ai envie de tester les deux!

**kaitlyn** · 05/12/2020, 14h49

Bonjour,

Actuellement, comment sont stockées toutes ces données ?

Trouver les uniques de tuples de dimensions arbitraires

C++

Vue hybride

Discussions similaires

Partager

Partager