Les entrepôts de données de la recherche
Un entrepôt de données est « une infrastructure de stockage et de services facilitant le dépôt, la description, le partage en accès ouvert, la découverte et la réutilisation, par des humains ou des machines, de jeux de données […]. Ces jeux de données sont associés à des métadonnées et sont conservés à moyen ou long terme. » (Comité pour la science ouverte, 2024).
Déposer ses données dans un entrepôt rend possible leur réutilisation et ouvre la porte à de nouvelles collaborations.
C’est une pratique encouragée dans le contexte de la science ouvert et déposer ses données de recherche dans un entrepôt de données est désormais une étape incontournable de la gestion des données d’un projet.
Ces entrepôts s’inscrivent dans une démarche de partage et d’ouverture des données selon les principes FAIR pour que les données soient « Faciles à trouver, Accessibles, Interopérables et Réutilisables » (en anglais : Findable, Accessible, Interoperable, Reusable).
Pourquoi déposer dans un entrepôt de données ?
- Pour conserver ses données dans un environnement sécurisé ;
- Pour donner de la visibilité aux données et faciliter l’accès pour les moteurs de recherche ;
- Pour permettre l’interopérabilité des données grâce à l’utilisation de standards de métadonnées ;
- Pour permettre la découverte, la réutilisation et la citation du jeu de données grâce à l’attribution d’un identifiant pérenne ;
- Pour gérer les modalités de partage des données par l’attribution de licences de diffusion ;
- Pour se conformer aux exigences des financeurs et institutions sur l’ouverture des données ;
- Pour favoriser la reproductibilité de la recherche et son intégrité ;
- Pour valoriser les données par leur réutilisation dans de nouvelles études et innovations.
Il existe plusieurs catégories d’entrepôts :
- Thématiques ou disciplinaires : Nakala (SHS), GenBANK (séquences génétiques), Pangaea (sciences de la terre et de l’environnement), Protocols.io (protocoles) etc. ;
- Institutionnels : Cirad Dataverse, DataSuds (IRD) ;National : Recherche Data Gouv ;
- National : Recherche Data Gouv ;
- Génériques : Zenodo, Dryad, Figshare ;
- Liés à un éditeur ou une revue (tout en restant un entrepôt ouvert) : Mendeley (Elsevier), Harvard Dataverse (Ubiquity Press), etc.
Le choix d’un entrepôt de données sera guidé par diverses considérations, résumées dans cette page du site Recherche Data Gouv. Il convient avant tout de suivre les pratiques des communautés scientifiques et donc de déposer ses données de façon prioritaire dans un entrepôt thématique de confiance. Depuis 2024, le collège Données de la recherche du Comité pour la science ouverte publie une liste évolutive des entrepôts thématiques de confiance, accompagnée d’une note méthodologique et d’une analyse de l’offre existante.
Si aucun entrepôt thématique n’est recommandé par votre communauté, il est conseillé de déposer vos données dans l’entrepôt de votre établissement s’il existe, ou sinon dans un entrepôt pluridisciplinaire, national (ex : Recherche Data Gouv en France) ou international (ex : Zenodo pour l’Europe).
Des annuaires d’entrepôts existent également :
- R3data : annuaire d’entrepôts ;
- FAIRsharing : portail web donnant à 3 répertoires interconnectés ;
- Cat OPIDoR avec des entrepôts par discipline ;
- Comment choisir un entrepôt de données : ressource Doranum
En complément, le site Doranum recense et décrit une sélection d’entrepôts hébergés en France dans le domaine des sciences humaines et sociales.