Le 18 novembre 2021 s’est déroulé l’atelier d’indexation collaborative des données issues du fonds iconographique du Laboratoire Archéosciences - UMR6566 CReAAH (Centre de Recherche en Archéologie, Achéosciences, Histoire), organisé dans le cadre du projet IMPACT (Images du passé, images d’avenir : documenter l’évolution climatique et anthropique sur le patrimoine (culturel et naturel) territorial). L’objectif de cette journée était de former un ensemble d’expert·es, identifié·es par l’équipe scientifique, à l’utilisation de l’entrepôt de données de recherche Nakala, pour qu’ils·elles puissent contribuer à la documentation des données du projet.
Le projet IMPACT vise l'étude de l'impact du temps sur le patrimoine culturel et naturel de l'Ouest de la France par l'analyse d'archives d'images historiques (du XIXème siècle à l'actuel), à travers une approche novatrice et interdisciplinaire regroupant des archéologues, des géomorphologues et des spécialistes des humanités numériques. Sur la base d'une archive déjà existante (conservée par l’UMR6566 CReAAH) et du travail de terrain et de laboratoire (photogrammétrie, analyse numérique), le projet contribue à la connaissance de l'évolution et l'érosion de sites et paysages vulnérables. Ce projet propose donc de coupler tout le potentiel - largement inexploité - des archives d’images anciennes avec la puissance et projection d'avenir des nouvelles technologies numériques pour répondre aux principaux défis sociétaux actuels : changement climatique, pression anthropique sur les milieux et sur le patrimoine naturel-culturel, préservation de la mémoire de sites vulnérables ou détruits.
Porté par Marie-Yvane Daire (directrice de recherche, UMR CReAAH), ce projet associe deux partenaires institutionnels : le CREAAH et la MSHB. Il a bénéficié en 2021 d’un financement obtenu dans le cadre de l’appel à projets MITI du CNRS.
Le projet IMPACT s’appuie ainsi en partie sur les fonds documentaires du laboratoire Archéosciences (cœur historique de l’UMR CReAAH) basé à l’université de Rennes 1. Ces fonds, concernant le patrimoine archéologique et culturel de l’Ouest de la France, ont été constitués au fil des six décennies d’histoire de l’Unité et hérités de l’ancien Laboratoire d’Anthropologie de Rennes, fondé par P.R. Giot (Daire et López-Romero 2013).
La numérisation, l’étude et la valorisation des fonds iconographiques anciens issus du laboratoire font l’objet d’un travail mené depuis 2006 par le CReAAH, avec le soutien de la MSHB depuis 2019 à travers le projet ICARE (Iconographie et Collections d’Anthropologie de REnnes). Le but du projet ICARE est d’évaluer l’état de ces supports, les référencer mais aussi assurer la pérennité de ces documents en les rendant accessibles par la numérisation. Les supports visés par ce projet sont de plusieurs natures :
Une grande partie des images mobilisées dans le cadre du projet IMPACT sont issues des fonds d’archives iconographiques du CReAAH, dont les données numérisées ont vocation à être déposées, décrites et sécurisées dans l’entrepôt Nakala au sein du projet ICARE. C’est pourquoi ces deux projets sont profondément liés.
Développé par la TGIR Huma-Num et mis en place depuis 2015, Nakala est un entrepôt de données de la recherche qui a pour fonction d’assurer la préservation, la publication et la réutilisation des données issues des projets de recherche en sciences humaines et sociales, en s'efforçant de mettre en œuvre les principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable) et les valeurs de la Science Ouverte. Mobilisé comme entrepôt pour les fonds du projet ICARE, Nakala permet la sauvegarde et la pérennisation des images numérisées, ainsi que de leur description via des métadonnées choisies.
Parmi les divers supports composant les fonds du projet ICARE, la collection de données qui a été sélectionnée pour cet atelier est constituée de plaques de verre, numérisées et déposées en amont. Des métadonnées minimales (dont certaines sont obligatoires dans Nakala) ont également été renseignées.
L’atelier s’est déroulé en deux temps sur une journée : une formation à Nakala le matin, et ensuite, l’après-midi, un travail collectif de description et d’indexation des plaques de verre.
Pendant la formation, une première partie théorique a été consacrée à la présentation des services proposés par Huma-Num et, plus spécifiquement, de Nakala. Pour cela, il a été important d’abord de comprendre ce qu’est un entrepôt de données de recherche et pourquoi il est utile de déposer ses données dans un entrepôt. Sur cette dernière question, nous pouvons souligner principalement l’importance de conserver et sécuriser matériellement ses données de recherche, le fait de rendre les données intelligibles dans la durée grâce aux métadonnées, ainsi que l’ouverture de l’accès aux données.
Un point a été ensuite consacré au fonctionnement du cycle de vie des données en SHS, aux enjeux de leur préservation et de leur réutilisation dans le contexte de la Science Ouverte et à l'inscription de l’ensemble des étapes du travail sur les données dans les principes FAIR. À partir de la modélisation de ce cycle, nous avons pu voir quels sont les services proposés par la TGIR Huma-Num pour chaque étape, qui va de l’organisation initiale du projet et de la collecte des données à la publication des données traitées et stabilisées, c’est-à-dire décrites et complètes. À savoir, les étapes du cycle de vie des données en SHS sont les suivantes : l’organisation, la collecte, le traitement, la préservation, la publication et la réutilisation des données, qui est assurée si toutes les étapes du travail s’engagent à leur FAIRisation.
Au sein du cycle de vie des données, Nakala se positionne au niveau de la préservation et de la publication, dans la mesure où ce service garantit le stockage sécurisé des données sur les serveurs d’Huma-Num, tout en permettant leur description en vue de les rendre visibles, accessibles et réutilisables. La citabilité est assurée par l’attribution d’un identifiant pérenne et unique (DOI) à chaque donnée déposée ; la qualité et l’interopérabilité des métadonnées sont garanties par l'usage de descripteurs issus de vocabulaires standardisés (DCTerms et FOAF) ; de plus, les données déposées dans Nakala peuvent aussi être référencées dans le moteur de recherche Isidore. Enfin, le module Nakala Press permet l’éditorialisation des collections de données et la publication d’une interface web publique pour les exposer.
Pour bien comprendre la structure d’une donnée dans Nakala, il convient d’abord de rappeler ce qu’est une donnée de recherche et ses métadonnées associées. Une donnée est un matériau produit sous forme numérique ou numérisée, qui est utilisée comme source principale pour la recherche. Une métadonnée est littéralement une donnée qui décrit une autre donnée. Ainsi, les métadonnées composent la documentation d’une donnée. Cette documentation permet de retracer le contexte de production et de collecte des données de la recherche. La structuration et la standardisation des métadonnées leur permettent aussi d’être plus facilement partagées et diffusées. Cette précision sur la donnée et les métadonnées est importante dans la mesure où, dans Nakala, une donnée - aussi appelée un objet numérique - n’est pas seulement composée par un fichier ou une ressource déposée, mais par l’ensemble que forment le(s) fichier(s) et ses métadonnées associées. C’est à cet ensemble qu’un identifiant unique est attribué. Une donnée peut ainsi contenir un ou plusieurs fichiers, qui seront décrits de façon cohérente par les métadonnées associées.
La deuxième partie de la formation dans la matinée a été dédiée à une démonstration pratique de Nakala, à partir de son interface de test. Nous avons navigué à travers la page d’accueil, le tableau de bord et les différents onglets. Les manipulations ont permis de montrer comment faire le dépôt d’une donnée, la création d’une collection et des listes, comment partager les droits sur une donnée ou collection avec d’autres utilisateur·ices, tout en expliquant les rôles possibles (Lecteur·ice, Éditeur·ice, Administrateur·ice). Nous avons eu l’occasion d’aborder rapidement la publication d’un site web via Nakala.
Lors des démonstrations, des questions importantes ont été soulevées sur le fonctionnement des collections : il n’existe pas de hiérarchie entre elles, une collection publique ne peut contenir que des données publiées et la gestion des droits sur une collection est indépendante de la gestion des droits sur les données qu’elle contient.
Pour les données, plusieurs questions ont été approfondies. D’abord, la question sur la possibilité de définir une date d’embargo pour les fichiers d’une donnée, ce qui ne veut pas dire que l’ensemble sera sous embargo. En effet, dès qu’une donnée est publiée dans Nakala, ses métadonnées sont automatiquement rendues visibles, même si ses fichiers sont sous embargo.
Nous avons ensuite abordé la différence entre une donnée déposée et une donnée publiée. Le premier cas constitue un dépôt privé et se trouve limité par un espace de stockage restreint. Dans Nakala, le dépôt privé est considéré comme une phase transitoire avant la publication. La publication constitue par contre un dépôt public. Dans ce cas, l’espace de stockage dans Nakala n’est pas restreint (il est tout de même recommandé de prendre contact avec l'équipe d'Huma-Num si l'on prévoit de déposer des volumes importants de données) et la publication est définitive : la donnée reçoit un DOI et il n’est pas possible de la supprimer ou de la dépublier manuellement. Comme indiqué ci-dessus, les fichiers de cette donnée peuvent être rendus visibles automatiquement ou soumis à une période d’embargo définie lors du dépôt.
Par ailleurs, nous avons vu le rôle joué par les différents types de métadonnées lors du dépôt d’une donnée : il y a cinq métadonnées minimales qui sont obligatoires pour la validation du dépôt, trois informations complémentaires (description, mots-clés et langue) et une liste non limitée de métadonnées optionnelles qui peuvent être ajoutées, selon la granularité de description souhaitée. Il est important de rappeler que la majorité des métadonnées de Nakala est issue du vocabulaire standardisé Dublin Core étendu (DCTerms), ce qui assure leur qualité et interopérabilité. Une autre question mise en avant pendant la formation a porté sur l’autocomplétion des mots-clés associées à une donnée, reliée aux différents thésaurus utilisés dans Isidore. Un dernier point évoqué qui nous paraît particulièrement important concernait les différentes licences mises à disposition par Nakala pour que le déposant puisse préciser les conditions de réutilisation de la donnée. Notamment, nous avons souligné comment les licences Creative Commons permettent de bien spécifier les différents degrés d’usage et de partage possibles d’une donnée.
La deuxième partie de la journée, dans l’après-midi, a été consacrée au travail pratique de documentation des données. Un premier temps a été dédié à la présentation du “Guide de saisie des métadonnées dans l’entrepôt Nakala”, un document spécifiquement rédigé et structuré pour les projets ICARE et IMPACT. Dans le guide, nous décrivons comment accéder aux données du projet déjà déposées dans Nakala, nous expliquons quelles sont les métadonnées qui ont été choisies comme nécessaires à la description de ce corpus et comment les informations doivent être saisies ou vérifiées, en vue de leur normalisation. Un travail de dépôt des données avait été réalisé en amont, avec la création des métadonnées et la saisie des informations minimales connues : il revenait alors aux spécialistes participant à l’atelier de vérifier ou compléter ces informations dans l’interface de Nakala. Ce travail de documentation s'est initié à la suite de la présentation du guide.
La méthodologie de travail collectif s’est basée dans l’attribution de lots de données aux participant·es, selon leur spécialité dans une période historique ou une aire géographique. Le nommage des données déposées dans Nakala, sous la collection Icare, est constitué à partir du numéro d’inventaire des sources, en référence aux caisses, lots et numéros de série qui localisent les plaques de verre dans les fonds du CReAAH. Des droits d’éditeur·ice leur ont été attribués sur l’ensemble des données. Ce travail vise à enrichir les données : les participant·es à l’atelier ont ainsi apporté leurs connaissances spécifiques pour la vérification de métadonnées importantes, comme la localisation de la prise de vue et l’interprétation des images par exemple. Les équipes de la MSHB et du CReAAH étaient disponibles pour répondre aux questions qui ont émergé lors du travail, pour assurer que les participant·es puissent prendre en main l’outil et continuer par la suite le travail de documentation des plaques de verre de façon indépendante.
Aline Benvegnu Dos Santos
Webographie :