Aller au contenu

Bibliostratus : mettre en correspondance ses notices avec celles de la BnF


Renaud @ruralsmart

Messages recommandés

@Mathieu Saby

Quel système d'exploitation ? Tu fais ça sous Mac en utilisant le code source ? Ou une version compilée sur un PC Windows ?

 

Le message d'erreur dit que le programme n'arrive pas à accéder à un fichier temporaire créé par le programme pour traiter correctement chaque notice. C'est pourquoi je soupçonne un problème d'OS. Je vais voir comment contourner le problème (sans créer le fichier temporaire, ou en le gérant autrement)

Lien vers le commentaire
Partager sur d’autres sites

Sous Windows10, avec l'exécutable téléchargé sur github...

En regardant le code j'ai l'impression que l'application ne comprend pas que mon fichier est en XML et non en ISO2709, d'où une étape de conversion inutile et qui ne fonctionne pas. Mais je me trompe peut être : remplacer "3" par "2" dans cette ligne ?

 

https://github.com/Transition-bibliographique/bibliostratus/blob/ad3c6adefe63ac7864ed097c7769878e4734bf4c/bibliostratus/marc2tables.py#L1002 

 

Modifié par Mathieu Saby
Lien vers le commentaire
Partager sur d’autres sites

@Mathieu Saby Effectivement, c'est bien la ligne de code problématique : j'ai sans doute changé l'ordre des options entre deux versions, sans penser à toutes les conséquences...

As-tu besoin que je recompile une version 1.28 débuguée, ou tu peux t'en débrouiller sans ça et patienter un peu une prochaine version ?

 

 

Lien vers le commentaire
Partager sur d’autres sites

Le 24/03/2020 à 21:07, Mathieu Saby a dit :

je vais essayer de me débrouiller!

En fait si tu sélectionnes l'option 2 (iso2709 encodé en iso-8859-1), le logiciel "croira" que c'est le format XML en entrée

En attendant la version d'après...

Lien vers le commentaire
Partager sur d’autres sites

  • 3 weeks later...

Bonjour à tous,

En poste au sein d'une bibliothèque d'archives depuis peu, je réfléchis aux différents moyens s'offrant à nous pour un nettoyage en profondeur des données.

Nous travaillons avec le SIGB Cadic, et nous utilisons l'Unimarc avec Rameau.

Créée dès le 19e siècle, la bibliothèque se compose d'environ 30 000 ouvrages, datant majoritairement des 19e et 20e siècles. A cela vient s'ajouter une collection d'environ 2800 titres de revues et journaux de presse. 

Ce fonds présente la particularité de ne pas toujours être représenté au sein de la BnF (monographies de sociétés savantes locales, publications d'associations etc.). Assez peu d'ISBN, sauf pour les acquisitions d'ouvrages récents.

Il y a eu différentes phases d'informatisation, plus ou moins réussies, générant parfois des doublons.

De plus, une partie de l'indexation a été renseignée en zone 610 (vocabulaire libre). Une partie du travail de nettoyage consisterait à renvoyer les 610 dans la zone d'indexation contrôlée, sans savoir si cela est vraiment réalisable. Les zones éditeurs, auteurs sont également à travailler (exemple avec "Éd. PUR" ; "Presses Universitaires de Rennes" ; "Édition Presses Universaitaires de Rennes" etc..). 

J'ai compris que Bibliostratus était plutôt utilisé pour aligner des notices. Pas forcément pour effectuer ce travail de nettoyage.

N'étant pas bibliothécaire de formation, je cherche à m'organiser au mieux pour gérer ce chantier qui me semble assez titanesque.

Je reste convaincu que la transition bibliographique est un point essentiel à développer, cependant il me manque quelques clés pour y accéder.

 

Pensez-vous qu'un nettoyage préalable est nécessaire pour avancer sur la transition bibliographique ?

Bibliostratus peut-il être l'outil pour le réaliser ?

 

Merci d'avance, je prends toutes les idées...

 

Matthieu

 

Lien vers le commentaire
Partager sur d’autres sites

Bonjour @mguen

voilà une question beaucoup plus complexe que celle posée initialement sur Twitter :-)

Je vais quand même prendre le temps de répondre à la question initiale (Bibliostratus permet-il de faire des alignements avec Rameau ?), puis de revenir sur la question plus globale (Que dois-je faire sur mes données pour "avancer sur la transition bibliographique" ?)

 

Alignements Rameau

Depuis la version 1.27, Bibliostratus propose une option d'alignement avec Rameau (dans le module Aligner des notices d'autorité)

On y charge un fichier contenant dans une colonne un libellé Rameau, et (si le concept existe toujours dans la base) Bibliostratus renvoie l'identifiant de la notice Rameau correspondante.

Pour cela, il cherche d'abord le point d'accès exact via data.bnf.fr (recherche par expression exacte, incluant la ponctuation, la casse et les accents) ; si ça ne marche pas, il lance une requête (plus "souple") dans le catalogue de la BnF (via le SRU).

Le rapport en sortie documente la manière dont a été trouvé l'identifiant, donc permet d'évaluer la pertinence de l'alignement (par exemple l'algo peut proposer de rapprocher "Saint-Benoît-sur-X" avec "Saint-Benoît-sur-X -- environs" parce que l'un est dans l'autre)

 

Là où il faut être très vigilant, c'est sur les cas où on voudrait rapprocher un référentiel autre que Rameau par ce biais : les logiques propres à un référentiel peuvent amener à désigner avec le même libellé un concept tout à fait différent (l'exemple que j'aime bien est celui de "fatigue", qui a un sens tout autre pour les métaux que dans le vocabulaire courant) : si c'est de l'indexation libre que vous voulez aligner avec des concepts Rameau, il faudra les valider un par un (mais Bibliostratus peut servir de facilitateur en vous identifiant les concepts ayant le même libellé : il faudra "juste" s'assurer que c'est la même notion qui est derrière).

 

Avancer dans la Transition bibliographique

A dire le vrai, pour cette partie là je suis moins légitime que d'autres membres du groupe Systèmes & Données, vu que je suis à l'intérieur de la BnF, donc pas tout à fait dans la même situation (même si nous oeuvrons aussi à préparer nos données par ailleurs).

Le groupe S&D a diffusé un document de recommandations sur ce point (mais il est plus centré sur un projet de réinformatisation) : https://www.transition-bibliographique.fr/systemes-et-donnees/recommandations/

L'idée phare est que la LRMisation va consister avant tout

  • pour les agences à créer des oeuvres, et des liens entre actuelles notices bibliographiques (devenues entre temps manifestations + expressions) et ces oeuvres
  • pour les bibliothèques, à identifier pour chacune de leurs notices (autant que possible, quand elles existent) les notices équivalentes dans le catalogue BnF ou le Sudoc.
    D'où Bibliostratus. Et pour ce faire, il faut que les notices de part et d'autre soient comparables, c'est-à-dire que les zones qu'on va comparer comportent les mêmes informations bien structurées :
    • la zone de titre ne contient que le titre (et nous avons plein de chantiers en cours à la BnF pour que le titre ne contienne que le titre et pas l'auteur, l'édition, l'année, etc.)
    • les auteurs sont mentionnés correctement et identifiés
    • date de publication et éditeur proprement saisis
    • etc.

Pour que l'alignement soit faisable, il faut donc vous assurer que les différentes zones utiles à cet alignement soient bien renseignées, faire les corrections nécessaires s'il y a lieu, et lancer l'alignement

Ou lancer d'abord l'alignement Bibliostratus, pour évaluer la pertinence des alignements trouvés et analyser la raison des alignements non trouvés : c'est une autre manière d'identifier les erreurs possibles

 

Lien vers le commentaire
Partager sur d’autres sites

Un grand merci pour cette réponse.

Je vais analyser, et ne manquerai pas de faire un retour. Ou peut-être, (sûrement), en profiterai pour poser d'autres questions !

 

Merci pour l'entraide de ce forum.

 

Et bon week-end.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour

depuis hier, j'essaie d'utiliser bibliostratus pour faire un alignement avec le SUDOC (option aligner de préférence avec le SUDOC coché) mais j'ai beaucoup plus de réponses ark. J'ai essayé avec un fichier que j'avais aligné en mars avec pas mal de réponses PPN et là aussi, pratiquement que des ark.

Est-ce qu'il y a un souci avec le SUDOC en ce moment ? D'autres personnes ont constaté ce problème ?

Merci d'avance

Sonia

Lien vers le commentaire
Partager sur d’autres sites

@Sbouis Je viens de faire tourner Bibliostratus et j'obtiens un résultat cohérent en cochant "Sudoc" en préférence. Je l'ai exécuté sur le fichier d'exemple fourni avec Bibliostratus : fichier mon_impr.tsv dans le dossier bibliostratus\main\examples.

(cf. copie d'écran ci-dessous)

Pouvez-vous faire tourner ce même fichier sur votre poste, avec préférence "Sudoc" et voir si vous obtenez le même résultat ?

bbs_pref_sudoc.png

Lien vers le commentaire
Partager sur d’autres sites

Si je teste avec le fichier mon_impr.tsv tel qu'on le trouve dans le répertoire "examples", j'obtiens effectivement le même résultat. Mais cela ne correspond pas aux exemples que je teste qui n'ont aucun identifiant. Si je reprends le fichier mon_impr.tsv en enlevant toutes les valeurs pour les colonnes FRBNF; ARK; ISBN; EAN, je ne retrouve plus que des identifiants ark quand je lance bibliostratus avec les deux cases cochées "avec le sudoc" et "utiliser la recherche par mots clés". C'est le serveur z39-50 du sudoc qui est interrogé ? Cela fonctionnait mi-mars pourtant..

 

image.png

Lien vers le commentaire
Partager sur d’autres sites

@sbouis En fait j'ai identifié un gros bug (grâce à @Mathieu Saby qui remontait le même problème), avec une fonction qui ne récupérait pas correctement la notice bib du Sudoc pour contrôles.

C'est corrigé dans la 1.30RC (pas complètement validée sous d'autres aspects) https://github.com/Transition-bibliographique/bibliostratus/blob/1.30/bin/RC/bibliostratus_1.30RC_win64_py3.6.zip

Modifié par Lully
Lien vers le commentaire
Partager sur d’autres sites

  • 4 months later...

Bonjour,

 

Je suis bibliothécaire aux Archives nationales d'outre-mer et je commence à procéder à l'alignement des notices de mon catalogue.

Voici ci-dessous, le résultat de la phase "Aligner ses données avec la BnF". Je ne sais pas comment interpréter ce rapport.

Merci pour votre aide.

 

Nb ID trouvés    Nb notices concernées
1    2132
0    2637
3    22
2    175
4    9
7    2
5    3
36    2
18    1
32    1
52    1
10    2
13    1
15    1
21    1
245    1
29    1
12    1
9    2
6    1
35    1
40    1
28    1


----------
Liste des notices dont l'ISBN en entrée est différent de celui dans la notice trouvée
NumNotice    ISBN initial    ISBN converti    Notice trouvée dans le Sudoc ?
  AOC00010448101    2-212-08896-5    9782212088960    False

Lien vers le commentaire
Partager sur d’autres sites

CFCB Bretagne-Loire

Bonjour,

Le CFCB Bretagne - Pays de la Loire organise un atelier de prise en main et de révisions pour l'utilisation de Bibliostratus le 13 novembre de 14h à 17h15 animé par Fabienne Mulot, membre du sous-groupe Bibliostratus du groupe national Transition bibliographique.

Le stage est en partenariat avec le CNFPT et donc gratuit pour les personnels territoriaux.

Programme et inscriptions https://bit.ly/3ij3MS4

Bienvenue !

Delphine Boussiron pour le CFCB

 

Lien vers le commentaire
Partager sur d’autres sites

  • 5 weeks later...

Bonjour !

 

Question à propos de BST rouge vs récupération de notices bbgr sur la base d'un ark.

 

Je ne réussis plus, depuis hier, à récupérer des notices de la BNF. J'ai testé avec présentation en une ou deux colonnes, même résultat. En revanche, je récupère les notices du SUDOC. Quelqu'un a-t-il une explication ? Est-ce une suspension temporaire de la fourniture de notices BNF par ce biais. A Brest nous utilisons parallèlement la récupération via Z3950 à partir de notre SI V-Smart. Cela ne marchait pas hier mais refonctionne aujourd'hui.

 

Je joins le fichier que je soumets à BST rouge (ToBeDeleted).

 

Merci d'avance pour votre avis ! :)

 

K Bretéché, Médiathèques de Brest

 

ToBeDeleted.txt

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...
Le 03/09/2020 à 10:26, Folio a dit :

Bonjour,

 

Je suis bibliothécaire aux Archives nationales d'outre-mer et je commence à procéder à l'alignement des notices de mon catalogue.

Voici ci-dessous, le résultat de la phase "Aligner ses données avec la BnF". Je ne sais pas comment interpréter ce rapport.

Merci pour votre aide.

 

Nb ID trouvés    Nb notices concernées
1    2132
0    2637
3    22
2    175
4    9

....

 

 

Ce rapport veut dire que pour 2637 notices il n'en a trouvé aucun, pour 2132 notices, Bibliostratus a trouvé 1 identifiant, etc.

Ca peut servir à évaluer une charge de travail consécutive pour reprendre les données ou les alignements proposés.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour

 

Le groupe Systèmes & Données propose aux utilisateurs de Bibliostratus de nous aider à construire le dispositif d'accompagnement autour de ce logiciel : aide, documentation, formations, etc.

 

https://www.transition-bibliographique.fr/2020-11-19-utilisateurs-heureux-ou-decus-de-bibliostratus/

 

En 10 minutes, vous êtes invités à nous rendre compte de votre parcours utilisateur (surtout dans la phase de découverte et d'appropriation), de ce qui vous a manqué, etc.

 

Merci d'avance !

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...

Bonjour,

 

Je travaille à la bibliothèque des Archives départementales de Loire-Atlantique.

Nous sommes en plein test de l'outil Bibliostratus, qui semble très intéressant pour raccrocher nos notices à celles de la BnF et du Sudoc.

J'ai cependant des problèmes avec l'encodage UTF-8 en sortie de mon SIGB Cadic.

Je cherche donc à savoir si il y a ici des utilisateurs de Cadic afin de mener à bien ces tests.

 

Merci et bonne fin de journée,

 

Matthieu

Lien vers le commentaire
Partager sur d’autres sites

  • 3 weeks later...

Bonjour,

 

Quelqu'un ici a t-il déjà tenté des alignements sur des titres de périodiques ?

Bibliostratus peut-il être utilisé en ce sens ?

 

Bonne journée à tous,

 

Matthieu

 

 

Lien vers le commentaire
Partager sur d’autres sites

Bonjour, 

 

Je suis actuellement stagiaire à la bibliothèque des ANOM et on a commencé des alignements de notices.

L'alignement bleu et blanc n'a pas posé de problème (50% de notice alignées : cela s'explique par la quantité de littérature grise et d'ouvrages n'ayant pas d'ISBD).

 

Cependant, le blocage intervient lors du module rouge et donc la récupération des notices bibliographiques. Un message d'erreur apparaît et cela peut importe le type de fichier : 1 colonne / 2 colonnes avec ou sans entête...  Voici l'erreur

 

image.png.fc16294c77d7d123c8d9dca1c6cbb6c2.png

 

De plus, je remarque que l'erreur se déclenche aléatoirement : dans cette capture c'est à la ligne 199... Mais j'ai eu de multiples erreurs à d'autres ARK ou PPN. Le maximum de notices exportées : 450. Pour information, mon fichier source est bien encodé en UTF-8 et comporte 2494 ARK ou PPN.

 

En survolant le forum, j'ai remarqué que d'autres personnes ont eu une erreur similaire "Exception in Tkinter callback / Traceback (most recent call last" mais elle fut réglé par une mise à jour de bst.

 

Si @Lully pouvait apporter une réponse, merci d'avance. Je vous remercie.

 

Bonne journée

 

Zura

Lien vers le commentaire
Partager sur d’autres sites

il y a une heure, Zura janai a dit :

le blocage intervient lors du module rouge et donc la récupération des notices bibliographiques.

Bonjour, effectivement ce problème m'a été remonté tout récemment. Manifestement, le SRU de la BnF déconnecte parfois les sessions et renvoie un message d'erreur tout nouveau, non anticipé par le code.

J'ai fait une mise à jour en version en cours de développement : la 1.32RC https://github.com/Transition-bibliographique/bibliostratus/blob/1.32/bin/RC/bibliostratus_1.32RC_win64_py3.6.zip

qui permet d'outrepasser le problème (et de générer un fichier d'erreurs pour signaler les identifiants dont les notices n'ont pu être récupérées

Lien vers le commentaire
Partager sur d’autres sites

Rejoindre la conversation

Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.

Invité
Répondre à ce sujet…

×   Collé en tant que texte enrichi.   Restaurer la mise en forme

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.

×
×
  • Créer...