Cet atelier s'inscrit dans le cycle d'ateliers mensuels du Datalab Brest. Il est coanimé avec la Plateforme Humanités Numériques.
L’outil open source eScriptorium facilite la transcription des sources textuelles, qu’elles soient imprimées ou manuscrites. Il permet d’obtenir une transcription automatique d’un texte à partir de son image (différents formats d’entrée) par l’application de modèles de reconnaissance automatique des écritures puis par une correction manuelle de la transcription automatique obtenue. Ainsi eScriptorium produit des textes vérifiés dans un laps de temps raisonnable.
Au-delà de la prise en main de cet outil, l’atelier se penchera sur les grands principes d’une bonne gestion d’un corpus de textes.
Programme
Nous vous proposons d’aborder les points suivants :
- Initiation aux bonnes pratiques de la gestion de ces données particulières que sont les corpus de textes : numérisation, norme de nommage, formats…
- Présentation de l’ATR (Automatic Text Recognition) et en particulier de l’OCR (Optical Character Recognition)
- L’outil eScriptorium : présentation et travaux pratiques

Informations pratiques
Cet atelier se déroulera en présentiel uniquement. Il sera animé par Justine Chainiau, ingénieure de la Plateforme universitaire de données, et Caroline Terrier, animatrice du Datalab Brest.
L'inscription est gratuite mais obligatoire pour participer. Le nombre d'inscriptions est limité à 10 personnes par atelier.