Google lance un nouveau moteur de recherche pour les données scientifiques
basé sur son initiative Schema.org

Dans un billet de blog, la chercheuse en intelligence artificielle de Google Natasha Noy a annoncé le lancement de Dataset Search, un moteur de recherche qui centralise des millions de bases de données scientifiques afin de permettre à toute personne désireuse de se les procurer de le faire sans trop de difficultés. Elle ajoute que pour créer Dataset Search, Google avait élaboré des directives visant à aider les fournisseurs de données à mieux décrire ce qu’ils fournissent, de manière à ce que les moteurs de recherche en aient une meilleure compréhension.

Ces directives exhortent à la fourniture d’informations essentielles sur les jeux de données telles que le créateur du jeu de données, la date de publication, la / les méthode(s) de collecte des données et les termes d’utilisation des données. Elle explique que ces données sont collectées, liées et analysées afin de pouvoir repérer et mettre en lumière les publications qui portent sur elles. « Notre approche est basée sur un standard ouvert pour décrire ces informations (schema.org) et quiconque publie des données peut décrire son jeu de données de cette manière. Nous encourageons les fournisseurs de jeux de données à adopter cette norme commune afin que tous les jeux de données fassent partie de cet écosystème robuste », explique-t-elle.

Nom : datasetsearch-800x308.png
Affichages : 3083
Taille : 9,2 Ko

Ainsi, au fur et à mesure que l’utilisation du standard schema.org pour décrire les jeux de données se répandra, la variété et la profondeur des données trouvables sur Dataset Search augmenteront progressivement. La chercheuse indique également que Dataset Search fonctionne dans plusieurs langues.

Elle explique que Google visait à mettre les jeux de données davantage en évidence dans ses produits et que le lancement de ce nouveau moteur de recherche s’inscrivait dans cette droite ligne. Rappelant que la performance d’un moteur de recherche est fonction des métadonnées que les fournisseurs de jeux de données sont disposés à fournir, elle exhorte à l’adoption massive du standard schema.org afin que Dataset Search puisse fournir aux internautes une base de données solide et pertinente.

Elle écrit que la plupart des jeux de données disponibles sur les sciences environnementales et les sciences sociales sont référencés sur Dataset Search. Le moteur de recherche ne s’arrête pas là. Il vous donne également accès à des données provenant d’autres disciplines y compris des données gouvernementales et des données fournies par des organisations de presse. Ne soyez donc pas surpris de tomber sur des données d’agences gouvernementales telles que la NASA et la NOAA (National Oceanic and Atmospheric Administration) ou encore sur d’immenses bases de données universitaires.

La NOAA a déjà consenti d’énormes efforts afin de s’assurer que ses données soient conformes aux exigences de ce nouveau moteur de recherche. « Ce type de recherche a longtemps été le rêve de nombreux chercheurs des communautés de science et de données libres. Et pour la NOAA dont la mission comprend le partage de nos données avec d’autres utilisateurs, cet outil est essentiel pour rendre nos données plus accessibles à une communauté d’utilisateurs encore plus vaste », déclare Ed Kearns, responsable en chef des données chez la NOAA.

Découvrez ici la version bêta de Dataset Search

Source : Google Blog

Et vous ?

Qu’en pensez-vous ?

Voir aussi

Schema.org : une initiative pour que les moteurs de recherche comprennent les sites Web

Google procède au déploiement des « extraits sélectionnés multifacettes » sur Google Search pour répondre au mieux aux requêtes nuancées

Google Search s'appuie désormais sur l'API Service Worker pour les recherches répétées et promet d'obtenir des résultats parfois deux fois plus vite

Version censurée de Google Search en Chine : l'EFF appelle Google à un débat public le défenseur des droits numériques voudrait connaitre ses plans

Google Search va utiliser la vitesse de téléchargement d'une page sur mobile comme un facteur de classement à partir de juillet 2018