Hello,
Je cherche depuis un moment des jeux de données de type graphe non dirigé, dont les noeuds soient annotés par une étiquette discrète (un entier naturel, par exemple) et dont les arêtes peuvent être étiquetées par des réels positifs.
Dans l'idéal, il faudrait que les étiquettes au niveau des noeuds et la valeur associée aux arêtes et la structure du graphe soient quand même en relation.
Par exemple, le graphe social de facebook (le réseau d'amis) peut former des communautés et ces communautés pourraient être représentés par des entiers naturels. C'est le type de donnée dont j'ai besoin.
Néanmoins, mes recherches me conduisent souvent à trouver des jeux de données qui :
- soit ne sont pas étiquetés. C'est donc inutilisable, pour moi.
- soit sont tellement sparse que ça reste malgré tout inutilisable.
Ce que j'entends par "tellement sparse" ? Par exemple un graphe disposant de plusieurs composantes connexes (donc déconnectées entre-elles), c'est trop sparse, surtout si le nombre de composantes connexes dépasse le nombre d'étiquettes de noeud différentes.
Quelqu'un a une idée de où je pourrais trouver ça ou comment produire un jeu de données à peu près correct ?
Le meilleur que j'ai pu obtenir pour l'instant est un jeu de données construit à partir de la base www.imdb.com, où je récupère les films dans lesquels ont joué les acteurs A,B,C,D et je récupère le cast de tous ces films, excepté les acteurs A,B,C,D, ce qui me permet de créer un graphe où chaque noeud représente un film et chaque arête est annotée par un poids représentant le nombre d'acteurs communs (hormis A,B,C,D) aux deux films concernés par l'arête.
Partager