Collections et performances : faire le bon choix

**Benbout** · 22/05/2017, 00h36

Bonsoir, ce sujet est surement un marronier qui revient régulierement jusqu'a à vous, mais la question me parait très importante surtout du fait que j'ai pu voir de grosses collections d'objets être contenus dans des conteneurs pas forcément très réputés pour leur performance quand un grand nombre d'objets y est stocké.

Je me questionne au sujet de la meilleure collection à choisir en fonction de mes priorités, sachant que je cherche à stocker des références d'objets qui en general seront d'environ 500 et dont certaines pourraient s'élever à 20k, le tout pour y effectuer des ajout / remove fréquents et des itérations moins fréquentes, avec du tri en linq. Cela doit etre le plus rapide possible évidemment c'est pour un serveur.

les listes sont fréquemment pointées du doigt pour leur faiblesse quand elles contiennent un grand nombre d'entiers ou un petit nombre de strings de taille moyenne, selon certains benchmark maison :

Et pourtant, je remarque que pas mal de studios qui utilisent des moteurs de jeu en c# natif utilisent énormément de listes d'objets (que ce soit pour le moteur lui meme ou pour la partie serveur de ces jeux) et ce pour des collections qui sont assez importantes à itérer ou à SELECT avec linq (+ de 30 000) et avec des add/remove très fréquents, pourtant selon ces benchmark il apparaitrait que les listes soient vraiment très désavantagées pour ces types de collections, du coup je m'interroge sur le fait de remplacer toutes les listes qui contiennent beaucoup d'objets par des hashset.

Selon vous, ces benchmark sont ils pertinents ?
La liste a elle vraiment une impact important sur l'execution des traitements quand elles contiennent un nombre important d'objet ?
Que me conseilleriez vous de privilégier, au regard des informations que je vous ai donné plus haut ? (rester sur des listes, passer en hashset ? Ce qui ne me dérangerait pas puisque mes listes ne sont pas censés accueillir de doublon).

Merci.

**clementmarcotte** · 22/05/2017, 01h02

Bonjour.

C'est bizarre er je n'ai absolument rien qui prouverait que c'est mieux. Mais, instinctivement, je te dirais de regarder vers des DataTable(s). D'autant plus que tu peux les sauvegarder en xml, et les relire, avec une seule ligne de code. De prime abord (et sans preuve, je le répète) je sui porté à penser que les DataTable, sont mieux adaptées aux modifications fréquentes que les collections.

**Pol63** · 22/05/2017, 09h16

il y a peu de chances que le datatable soit plus performant, le dataadapter qui en remplie est significativement plus long qu'un remplissage d'une list<list<object>> via un datareader déjà
et l'argument de l'xml ne tient pas, tout peut être sérialisé en xml

sinon c'est assez facile à tester donc tu pourrais trouver ce qui te convient le mieux dans ton cas

après de ce que j'ai en tête je dirais que :
- le list doit être ce qu'il y a de plus rapide en .add (le queue est peut être plus rapide, mais il n'est pas prévu pour des itérations)
idéalement il faut le prédimensionner (new list<object>(nbvaleurprévues))
car c'est un tableau qui est derrière et il a une dimension de base, quand ca dépasse, un nouveau tableau 2x plus grand est créé et le premier est copié dedans, c'est donc là qu'on a de la perte de perf
- en .remove avec un peu de chance il déplace des items, donc ca ne doit pas être ce qu'il y a de mieux
- et en itération ca doit aller aussi, 30k dans une list c'est pas énorme non plus

(...)

en fait je viens de faire un petit test pour pas trop dire de conneries, et pour 30k items
ADD : list légèrement plus performant mais les 2 sont en dessous de 3ms
REMOVE : hashset énormement plus performant
FOR EACH : pas de différence noté, temps insignifiant dans les 2 cas
CONTAINS : même chose que remove, il a un index sur le hashage donc c'est quasi immédiat avec le hashset et long avec le list

après dans les différences hashset ne permet pas d'avoir des doublons
list permet d'accéder à un élément par son rang (list[8]) et donc de changer un item d'un rang
sur list il y a aussi .insert

après quand tu fais du .add et après juste de la lecture le list reste ce qu'il y a de mieux
par contre si tu fais des milliers de delete assez souvent, ou des milliers de contains le hashset sera en effet plus performant (et si les contraintes du hashset n'en sont pas dans ton cas)
mais si c'est pour un delete de temps en temps le list reste plus efficace, d'où son utilisation massive je pense (ca plus le fait que c'est la collection la plus simple et que certains développeurs ne savent pas qu'il y a plein d'autres types de collection

)

après c'est surtout les besoins qui font le choix, si tu veux pouvoir mettre 3x la même chose tu ne pourras pas prendre le hashset
et si tu veux du contains rapide sur une liste de choses tu prendras le hashset

**StringBuilder** · 22/05/2017, 10h43

J'avoue être surpris de lire dans une même phrase "je cherche le truc le plus performant" et "j'utilise Linq".

Je veux bien que Linq soit bien écrit, mais en aucun cas il peut faire mieux qu'une recherche "manuelle", surtout quand toi tu fonctionnellement la structure des listes.

Pour faire le parallèle avec SQL :
- Linq n'a pas d'optimiseur
- Linq n'a pas d'index à utiliser

De ce fait, au mieux, il produira le même code que le tiens, absolument pas optimisé.
-> Toi tu as l'intelligence de savoir que ça sert à rien de rechercher le nombre d'enfant des personnes qui ont moins de 12 ans : Linq, lui il va aller voir s'il y a des noeuds fils quand même.
-> Toi tu as l'intelligence de savoir que quand t'as chargé les gens dans ta liste, elles étaient triées par date de naissance, et que donc ça sert à rien de parcourir la liste depuis le début pour rechercher le nombre d'enfants, puisque toutes les premières lignes n'en auront probablement pas. Linq, lui il en sait rien.

Donc autant remplacer un List<T> Par un T[] ou autre Stack<T> te fera peut-être gagner ou perdre quelques cycles CPU dans certains cas extrêmes, autant ne pas parcourir l'intégralité de la liste à chaque recherche dedans par exemple, ça te divisera par 2, 3, ou même 1000 les temps de traitements.

**Benbout** · 26/05/2017, 12h00

Merci pour vos réponses, ces conseils sont très utiles.

@stringbuilder Je suis encore débutant .net, je pensais tout de meme que c'était assez bien optimisé à ce niveau. Ce que vous décrivez est aussi le cas pour une requete de type firstordefault ?

Dans tout les cas vous avez raisons, d'autant plus que je n'ai pas énormémment de type d objets à faire persister dans une base de données (car la plupart d'entre eux n'ont aucune valeur pour un partage entre mon serveur de jeu et mon serveur web). Je vais donc surement faire ce que vous me conseillez, pratiquer des requetes manuelles pour les échanges avec la bdd, et pour le reste, surement créer un storage protobuf. Merci !

**jcdentons** · 26/05/2017, 12h12

Bonjour,

A noter que si vous souhaitez conserver le code Linq, il est possible de l'utiliser sur des Vues, qui seront elles indexées par exemple, ou encore de combiner avec l'appel de procédures stockées qui optimiseraient la recherche.

Collections et performances : faire le bon choix

Framework .NET

Discussions similaires

Partager

Partager