Données de la recherche versus chercheurs

INTRODUCTION

Le présent billet reprend l’analyse d’un article publié dans « Cahiers : Droit, Science et Technologies. Il s’intitule « Pratiques de gestion des données de la recherche : une nécessaire acculturation des chercheurs aux enjeux de la science ouverte ? » et résume une enquête effectuée auprès de chercheurs Montpelliérains dans tous les domaines de la science sauf celui impliquant des recherches sur la personne humaine. Ce dernier domaine, régi par le code de la santé publique, obéit en soi à des règles particulières. Cet article répond à un plan classique avec l’explication de la méthodologie appliquée à l’enquête auprès des chercheurs, effectuée en 2018, les résultats puis enfin l’analyse et la discussion.


Avec la naïveté du personne travaillant dans un service de soutien à la recherche au sein d’un SCD, je pensais que les chercheurs étaient déjà sensibilisés à cette question et que la plupart des laboratoires avaient mis ou mettaient en place une politique de gestion des données de la Recherche pour permettre à leurs collègues aux quatre coins du monde, d’accéder aux données et de pouvoir reproduire la recherche en question et avancer dans une collaboration toujours plus efficace et rapide.

A la lecture de cet article, on découvre que, finalement, peu d’équipes de recherche du bassin Montpelliérain ont mis en place une véritable politique de gestion des données avec des règles précises quant à leur mise à disposition, leur accessibilité, interopérabilité, réutilisation possible. Ces quatre principes, appelés FAIR pour « facile à retrouver, accessible, interopérable et réutilisables » ont été définis à l’échelle mondiale en 2014 par un groupe de chercheurs qui ont ensuite publié le résultat de leurs travaux sur la célèbre revue Nature. Cette publication fut fondatrice des principes FAIR que tout chercheur doit appliquer à ses données s’il veut veut prendre part à des projets de recherche européens financés sur fonds publics par l’Agence Nationale de la Recherche.

Les principes FAIR : Rappel

Les règles sont les suivantes: le travail scientifique doit être doté d’un identifiant pérenne unique tel le DOI pour être facilement retrouvé sur n’importe quelle plate-forme de recherche, les données doivent posséder des conditions de partage connues avec application de licences libres définies telles les créative commons, elles doivent rester accessibles même si elles ne sont plus disponibles, le lieu de consultation doit être clairement identifié, si un logiciel est nécessaire pour lire ces données, celui-ci doit être mis à disposition de tous (privilégier les logiciels libres et mettre à disposition le code source de l’outil), quand les données ne peuvent pas être diffusables, il est recommandé de dire pourquoi et pendant combien de temps, les standarts internationaux en terme de formats de données doivent être utilisés pour favoriser leur interopérabilité (privilégier les formats libres aux formats propriétaires (odt suite openoffice plutôt que docx de Microsoft par exemple).

L’ensemble de ces règles doit clairement être rédigé dans un plan de gestion des données ou data management plan et transmis à l’ANR dans les six mois qui suivent le dépôt de candidature à un projet de recherche européen. Ceci représente la règle actuelle telle que définie par l’ANR. Si l’on lit l’article sur les chercheurs Montpelliériens, que constate t- on ?

Gestion des données et stockage.

Les données restent encore stockées sur des clés USBordinateur personnel, cloud. Très peu de chercheurs font appel à des entrepôts de données organisées qui gèrent les données pour en assurer leur pérennité. Certains ne connaissent pas la politique de l’établissement en la matière et ne savent pas, quand il existe une archive institutionnelle, qu’elle est à leur disposition pour assurer le dépôt de leurs données en toute sécurité.

Disparité

Bien sûr il existe des disparités en fonction des domaines de recherches, les scientifiques en sciences dures physique chimie, biologie, mathématiques semblants plus sensibilisés à la problématique de la gestion des données de la Recherche que les chercheurs en sciences humaines. Mais, globalement, peu d’entre eux ont réfléchi en amont de leurs recherches pour mettre en place une politique globale de gestion de leurs données.

 » […] seulement 28 % des répondants ont fait appel à des dispositifs d’entrepôts de données, à des serveurs publics d’archivage et conservation ou à des serveurs ou entrepôts privés. Les deux tiers des répondants (105/155) n’avaient mobilisé aucun standard, norme ou procédure d’organisation de leurs données. […] »

Pratiques de gestion des données de la recherche : une nécessaire acculturation des chercheurs aux enjeux de la science ouverte ? Résultats d’une enquête exploratoire dans le bassin montpelliérain (juin 2018) Philippe Amiel, Francesca Frontini, Pierre-Yves Lacour et Agnès Robin p. 147-168 https://doi.org/10.4000/cdst.2061

Confidentialité

Les données de travail étaient facilement partagées avec un collègue et seulement 39 % avaient réfléchi à la notion de partage et de confidentialité. Dans le cadre d’un partage plus large avec la communauté universitaire, aucune notion de droit, de législation d’usage, n’avait été pensé, soit l’acceptation du partage dans les mêmes conditions, soit le partage à des fins commerciales ou non, soit l’autorisation de partage avec modifications etc…

Organisation de moyens techniques pour favoriser la traçabilité des données :

Les moyens sont très divers pour garantir la traçabilité des données. Le cahier de laboratoire est très souvent utilisé. Il sert à consigner au jour le jour les opérations de recherche et en assurer une traçabilité. Il est aussi question de base de données, journaux de bord électroniques, bref d’outils pensés au coup par coup et crées en fonction des besoins.

La propriété des données

Les chercheurs travaillant sur des projets financés sur fonds publics perçoivent la propriété des données de leur recherche comme appartenant au domaine public. Quand la recherche est financée par le laboratoire lui-même, les chercheurs perçoivent l’établissement pour lequel ils travaillent en tant que propriétaires des données, la propriété pouvant être partagée avec les chercheurs de l’établissement. Quand la recherche est financée sur fonds privés, ce sont les organismes financeurs qui sont perçus comme propriétaires des données. Quand un contrat existe entre les deux parties et que la propriété des données est définie, tout va bien mais quand aucun contrat n’existe, le chercheur sait-il qu’il reste le premier propriétaire de ce qu’il produit et peut négocier auprès d’un éditeur des avenants à son contrat de publication pour garder la main sur la diffusion de ses données ? Pas sûr

La diffusion des données

Les chercheurs à ce niveau là ont des lacunes. Si un contrat existe et définit entre deux parties la façon précise dont les données doivent être diffusées, les chercheurs ne sont pas perdus. Par contre, quid des données quand il n’existe aucun contrat et comment les diffuser pour rester dans « les clous » de la législation du domaine. Quid des licences libres de type créative commons qui définissent les conditions de partage et de diffusion des données ?

« Les concepts généraux en lien avec la notion de propriété et les notions voisines (domaine public, propriété publique, bien commun, donnée publique) restent également méconnus ou mal distingués les uns des autres. Cela est problématique dans le contexte actuel de mise en place de la politique publique de science ouverte

« Pratiques de gestion des données de la recherche : une nécessaire acculturation des chercheurs aux enjeux de la science ouverte ?  » Résultats d’une enquête exploratoire dans le bassin montpelliérain (juin 2018) Philippe Amiel, Francesca Frontini, Pierre-Yves Lacour et Agnès Robin p. 147-168 https://doi.org/10.4000/cdst.2061

La fin de l’article souligne les manques de connaissance des chercheurs dans différents domaines : méconnaissance des concepts, des enjeux liés à l’open data. Ils ont tendance à considérer que les politiques de gestion des données à définir pour faciliter les échanges, la diffusion, la pérennité du savoir se résume à une contrainte administrative supplémentaire qu’on leur impose et qu’un personnel administratif de type gratte-papier peut très bien convenir pour remplir la tâche pendant qu’eux se consacrent au coeur de leur travail : la Recherche.

CONCLUSION

Comprennent-ils vraiment que les contraintes imposées et les notions liées à la science ouverte ne sont là que pour favoriser la libre circulation de leurs travaux, faciliter les collaborations, renforcer l’efficacité et la visibilité de la Recherche française à l’international. Comprendre es enjeux de la science ouverte et obéir à ses principes, c’est permettre à la Recherche française d’être compétitive et reconnue dans des classements justes au delà du classement de Shangaï, ceux qui prennent en compte la qualité d’un contenu, de sa formalisation, de sa mise à disposition, de sa reproductibilité grâce aux bonnes pratiques qui sont appliquées.

Mise à jour le 04/06/2020

Crédit photographique : Pierre (1859-1906) et Marie Sklodowska Curie(1867-1934)

Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Partage dans les Mêmes Conditions 4.0 International.