Passer au contenu principal

Procédure d'alimentation ARCPA

Mise au propre suite à plusieurs tests d'import, traitement et production infructueux.

Rédaction Sam S et Nico H

Connexion

Bureau persee-cines.persee.fr

  • persee /persee2710
  • Environnement Linux, Explorateur de fichiers Dolphin

Les 4 lots à préparer                 

Lot structure 

  • Dans un dossier avec le nom du fascicule 'ex. arcpa_0000-0000_num_1910_75_01", ranger/copier :
    • tous les fichiers METS du corpus (ex. corpus_arcpa xxxxxxx mets.xml)
    • le fichier issue_arcpa_xxx_mets.xml
  • Dans Atuin > Description >
    • Créer un nouveau lot avec pour "Objet cible" la Racine de la collection ‘’Archives parlementaires’’ (on le déplacera dans "Archives parlementaires de la Révolution Française" plus tard, après les traitements)
    • Valider le nouveau fichier
    • Appliquer au lot la règle d’appariement json : persee_legacy_rules_full_with_ill.json
  • Dans Atuin > Administration > API > atuin-bpm (business process management) :
    • Selectionner l'l’API POST « struct-issue » et renseigner :
      • ID Atuin du fascicule, 
      • ID Atuin de contexte cf. ID de la racine du projet dans Atuin).
  • Dans Atuin > Description >Mode Documentation,
    • vérifier que la structure a été reconstruite (recharger l’arbre). 
  • Dans Atuin > Description >
    • Supprimer le lo

Lot Documents 

Ce lot comprendra les documents (UD ou GD)

  • Dans un dossier avec le nom du fascicule 'ex. arcpa_0000-0000_num_1910_75_01", ranger/copier :
    • tous les fichiers erudit,
    • tous les fichiers pdf
    • tous les fichiers tei
    • + les fichers METS des articles
  • Dans Atuin > Description >
    • Créer un nouveau lot avec pour "Objet cible" le Fascicule souhaité déjà placé à la racine (ex. volume LXXIII vol 73)
    • Valider le nouveau fichier
    • Règle d’appariement : persee_legacy_rules_3_docs_without_issues.json.
  • Dans Atuin > Administration > API > Pas d'appariement pair-by-attribte à ce stade, c'est trop tôt.

Lot Pages :

Ce lot comprendra lespages des documents (pages composant les UD ou GD)

  • Dans un dossier avec le nom du fascicule 'ex. arcpa_0000-0000_num_1910_75_01", ranger/copier :
    • Display
    • Fantomes_couvertures_Figures
    • Illustration_display
    • Pages_Volume, Resultat_OCR
  • Dans Atuin > Description >
    • Créer un nouveau lot avec pour "Objet cible" le Fascicule souhaité déjà placé à la racine (ex. volume LXXIII vol 73)
    • Valider le nouveau fichier
    • Règle d’appariement : portage_legacy_rules_5_pages_and_ill_without_issue.json

  • Après le chargement des fichiers de pages, un certain nombre de traitements de production sont lancés de façon automatique :
    • Génération de l’image en 710 pixels (Display710)
    • Génération de la vignette de page (Thumbnail)
    • Conversion de l’OCR au format Alto (atuinAlto)
    • Génération du fichier à indexer (FullText)

  • En mode production, on peut vérifier que ces 4 nouvelles représentations sont désormais associées à chaque page. On eut également interroger le micro-service Index pour s’assurer de la bonne indexation du contenu des pages et des documents. Analyse des fichiers
  • Dans Atuin > Administration > API > atuin-doormat
    • Utiliser l’API POST « suggested-tree » :
      • en lui passant comme paramètre l’identifiant du lot dans Doormat (il apparaît dans l’URL du lot ou en cliquant sur le lot (ex. 3-2025-11-29t112800z)
      • en lui copiant collant la règle json d'appariement du fichier pairing-legacy-rule-docs-without-issue.json
      • Copier le résultat
  • Dans Atuin > Administration > API > atuin-bpm
    • Utiliser l'API "pair-by-attribute"
      • Coller dans cette zone le résultat fournit par l’API suggested-tree
      • X-Atuin_Context : cf. ID unique de la racine du projet dans Atuin b0e2cf11-597c-427d-8ac7-68bcc0acf13b
      • parentId : identifiant Atuin du fascicule (ex. 7438efb0-bcf3-422a-a0ef-4e762f49ae96)
      • batchName : identifiant du lot Doormat (ex. 3-2025-11-29t112800z)
      • attributeTemplateId : id unique du template legacy : 42c912d1-c410-4b8a-9afa-00b2d68efb36 
      • attributeNanme : legacyId
      • overwriteExistting : false
      • projectLabel : arcpa
      • Site : persee-Lyon
      • Request body : Coller dans cette zone le résultat fournit par l’API suggested-tree
      • Cliquer sur le bouton « Execute » ( !)

Autres API

Dans Atuin > Administration > API > atuin-bpm

  • atuin-bpm dans la liste en haut à droite => accès aux commandes réalisées par le MS BPM (moteur de workflows).
  • Dans « xml-data-bpm-resource » av les API qui permettent d’exploiter les fichiers XML chargés
    • API xml-data-extract mets-metadata
      • Inutile de lancer cette API qui normalement est lancée automatiquement, mais à vérifier quand même (si j’ai pas le titre mais l’identifiant) c’est qu’elle n’a pas été lancée.
    • API xml-data-extract export-legacy

Une nouvelle exploitation des fichiers METS doit encore être faite pour associer les pages aux documents. Il faut pour cela exécuter, 

  • API de BPM > rubrique bpm-resources >l’API « export-legacy »
    • ID Atuin du fascicule, 
    • ID de contexte : b0e2cf11-597c-427d-8ac7-68bcc0acf13b

 Cette API « export-legacy », en lance 2 autres dans la foulée :

API xml-data-extract struct-issue

Struct-issue 
qui met les documents dans les groupes de documents = il fait la structuration entre fascicule et documents).

 Ce traitement permet de recréer la structure logique du fascicule (la table des matières), en recréant la hiérarchie de groupes de documents et de documents initiale.

Les Contrôles

Différents contrôles doivent être effectués à l’issue du chargement.

Contrôle de complétude (Doc > Sélectionner le fascicule)

Et :

Un premier ensemble de contrôles vise à s’assurer de la complétude des chargements et des traitements automatiques, i.e. que chaque objet dispose bien de tous les fichiers attendus.

En mode Documentation, sélectionner le fascicule et lancer le module de contrôle de complétude (clic droit, icône œil). Se référer à la documentation du module.

Il est également possible d’identifier les lacunes en base de données. Se référer au fichier de requêtes de contrôle.

Si des lacunes apparaissent dans les fichiers à charger, on pourra, en fonction de leur nombre, recourir à un lot et un appariement par attribut, ou bien à des uploads unitaires, via le module de production (prod-control) pour les données de page et en mode documentation pour les données documentaires.

De la même façon, c’est le nombre de lacunes dans les fichiers générés qui orientera vers un processus de masse appliqué à tout le fascicule, ou bien à un traitement unitaire, appliqués depuis l’affichage de production (prod-process) dans les deux cas.

Contrôle de cohérence

Un second lot de contrôles (toujours en mode Documentation > onglet « Contrôler ») est consacré à la structure des données. On y vérifie par exemple qu’il n’y a pas d’objets vides (hormis les pages) i.e. que les documents contiennent des pages, les groupes contiennent des documents et/ou d’autres groupes, etc.

Ces contrôles se font en base de données. Se référer au fichier de requêtes de contrôle ARCPA_SQL_controles.txt.

Pour remédier aux anomalies de structure, si la structure originale est correcte, un appel unitaire à l’API de manipulation du XML correspondante suffira. Si la structure originale est incorrecte, il faut la corriger dans jGalith, supprimer dans Atuin les éléments erronés (en général quelques objets et les fichiers associés) et recharger les données corrigées correspondantes. Ne pas oublier de rejouer les scripts de structuration des documents et du fascicules pour que les données rechargées soient correctement positionnées dans la structure.

« Dernière touche »

Une nouvelle exploitation des fichiers METS doit encore être faite pour associer les pages aux documents. Il faut pour cela exécuter, dans la page des API de BPM, rubrique xml-data-bpmresources,

l’API « export-legacy » (paramètres habituels).

Une fois tous les documents chargés, replacés dans la table des matières et associés à leurs pages, il faut lancer le traitement qui termine la récupération de la documentation (gestion des liens entre les autorités et les pages notamment, plan des documents s’il y a lieu, etc.). Pour cela, en mode production, sélectionner le fascicule dans l’arborescence de gauche et appeler le module de traitement de masse (clic droit, icône engrenages). Dans le menu déroulant, sélectionner le traitement « extraction TEI » et le lancer.

La perséide a besoin d’une vignette de couverture pour représenter le fascicule. Il convient de télécharger la vignette de l’objet page C1 générée par Atuin, et de la charger en tant que vignette de l’objet fascicule.

 

[NB de VB : il me semble que le workflow correspondant a été décrit dans le Kanboard « dev Atuin ».

Il n’est pas encore développé]