Aller au contenu
Renaud @ruralsmart

Bibliostratus : mettre en correspondance ses notices avec celles de la BnF

Messages recommandés

Lully

Bonjour @Fred. Avant que j'aille explorer le code : quelle est la version téléchargée (je pense que le formulaire affichera "version 1.25", mais quelle est le nom du zip récupéré) ?

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
7 hours ago, -Fred- said:

Bonjour,

 

Je suis en train de travailler avec l'outil à l'importation des notices bib et des autorités associées (le module rouge).

 

J'ai rencontré plusieurs problèmes et pour que ce soit plus simple, j'ai copié/collé les traces ic et mis les fichiers contenant quelques alignements en PJ.

....

 

 

Merci beaucoup pour tous ces retours très détaillés et précieux.

Logiquement la version 1.25 en cours de finalisation devrait résoudre tous ces problèmes

Certaines corrections étaient déjà implémentées pour cette version à paraître, les 2 autres corrections apportées le sont désormais (j'espère !) dans la 1.24.11RC

https://github.com/Transition-bibliographique/bibliostratus/tree/master/bin/RC

Sauf pour les cas où vous avez récupéré, dans le résultat des alignements, des identifiants sans préfixe :  ce sont en réalité des PPN, mais où le préfixe "PPN" n'a pas été ajouté. Logiquement, il est désormais systématiquement présent dans les rapports d'alignements, mais pour ceux que vous avez déjà fait tourner il faudra les ajouter "à la main" (en mode chercher-remplacer, ce sera plus rapide). Pour ensuite les faire passer dans le module rouge, version 1.24.11RC, ou dans la future version 1.25

Partager ce message


Lien à poster
Partager sur d’autres sites
-Fred-

Bonjour,

 

Il y a 17 heures, Lully a dit :

Bonjour @Fred. Avant que j'aille explorer le code : quelle est la version téléchargée (je pense que le formulaire affichera "version 1.25", mais quelle est le nom du zip récupéré) ?

 

J'ai effectué mes premiers essais avec une version pas à jour (1.24 datant de début novembre), ce qui n'était pas représentatif de la version actuelle.

 

Avant de poster mon message précédent,  j'ai donc récupéré la dernière version du projet (1.24.10 RC sur github) directement avec une commande "git clone https://github.com/Transition-bibliographique/bibligraphique.git" hier puis j'ai refait les essais.

 

Il y a 14 heures, Lully a dit :

 

Merci beaucoup pour tous ces retours très détaillés et précieux.

Logiquement la version 1.25 en cours de finalisation devrait résoudre tous ces problèmes

Certaines corrections étaient déjà implémentées pour cette version à paraître, les 2 autres corrections apportées le sont désormais (j'espère !) dans la 1.24.11RC

https://github.com/Transition-bibliographique/bibliostratus/tree/master/bin/RC

Sauf pour les cas où vous avez récupéré, dans le résultat des alignements, des identifiants sans préfixe :  ce sont en réalité des PPN, mais où le préfixe "PPN" n'a pas été ajouté. Logiquement, il est désormais systématiquement présent dans les rapports d'alignements, mais pour ceux que vous avez déjà fait tourner il faudra les ajouter "à la main" (en mode chercher-remplacer, ce sera plus rapide). Pour ensuite les faire passer dans le module rouge, version 1.24.11RC, ou dans la future version 1.25

 

Ok, je vais tester ça rapidement avec la version version 1.24.11RC et confirmer que les problèmes remontés n'apparaissent plus.

Concernant les identifiants sans préfixes, ce sera effectivement plus simple de les renommer manuellement car c'est un cas assez peu fréquent.

 

Merci pour ces informations.

Modifié par -Fred-

Partager ce message


Lien à poster
Partager sur d’autres sites
-Fred-

Bonjour,

 

Je viens de recharger les sources du projet avec un "git clone https://github.com/Transition-bibliographique/bibligraphique.git" mais ça ne change rien concernant mes divers problèmes.

A tout hasard, j'ai quand même téléchargé le fichier zip pour windows 64 de la version 1.24.11RC de bibliostratus mais j'ai les mêmes résultats.

 

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
24 minutes ago, -Fred- said:

Bonjour,

 

Je viens de recharger les sources du projet avec un "git clone https://github.com/Transition-bibliographique/bibligraphique.git" mais ça ne change rien concernant mes divers problèmes.

A tout hasard, j'ai quand même téléchargé le fichier zip pour windows 64 de la version 1.24.11RC de bibliostratus mais j'ai les mêmes résultats.

 

OK, donc je me replonge dans les erreurs signalées en détail

 

Problème 1 :

le code s'exécute pour essayer de réécrire la notice (le message d'erreur indique que le programme veut utiliser la fonction correct_record, qui réécrit la zone 001

Or vous indiquez que c'est dans le cas de fichiers à 1 colonne --> incohérence : vous mettez en entrée un fichier à 1 colonne, mais vous avez coché l'option "Fichier à 2 colonnes"

Bon, par ailleurs j'avais une erreur de typographie dans mon code : la variable agency_uri devenait à un moment agence_uri

 

Problème 2 : ce sont des PPN, il faut ajouter l'info, effectivement (et au passage, comme vous les avez passés dans Excel, 2 d'entre eux ont perdu leur 0 initial)

 

Problème 3 : fichier XML Autorités liées n'est pas correctement formé (manque une balise </collection> finale)

Sur mon poste, c'est correct en tout cas ! Je ne reproduis pas l'erreur

 

Problème 4  :  après ajout des préfixes PPN, le problème n'est-il pas résolu ?

 

Bon, suite à ma correction sur la variable agency_uri, voici une version 1.24.12RC https://github.com/Transition-bibliographique/bibliostratus/blob/master/bin/RC/bibliostratus_1.24.12RC_win64_py3.6.zip

Partager ce message


Lien à poster
Partager sur d’autres sites
-Fred-

 

Pour le 1er problème, je constate une erreur lorsque je veux passer mon fichier à deux colonnes et que je coche l'option "2 colonnes" dans le module rouge.

Le traitement s'arrête alors sur la ligne contenant l' ark:/12148/cb35089640s .

Je ne constate pas d'erreur lorsque je travaille avec un fichier contenant uniquement l'identifiant unique et que je sélectionne l'option "1 colonne".

 

Pour le 2nd problème je vais regarder si effectivement je n'ai pas perdu de données en passant par mon tableur.

La solution est peut-être là. Il n'est pas impossible non plus que cela soit à l'origine de mon premier problème.

 

Pour le 3ème problème, cela ne concerne que les notices autorité. Les notices bib sont OK.

Je confirme qu'il manque toujours la balise finale.

 

Pour le 4ème problème, il me semble que ce n'est pas encore résolu.

 

Je vais refaire des tests avec le version 1.24.12RC dès que possible.

Partager ce message


Lien à poster
Partager sur d’autres sites
Tredok

Coucou ! J'ai eu le même soucis que toi Fred (problème 1, mais uniquement lors de la récupération des autorités sujets. J'ai update (à priori en 1.24.12RC) et tout roule ^^

 

 

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
5 hours ago, Tredok said:

Coucou ! J'ai eu le même soucis que toi Fred (problème 1, mais uniquement lors de la récupération des autorités sujets. J'ai update (à priori en 1.24.12RC) et tout roule ^^

 

 

Ouf ! Merci Tredok !

Partager ce message


Lien à poster
Partager sur d’autres sites
kateB

Bonjour !

 

Nous avons commencé une campagne bibliostratus à Brest à la mi-javier. Tout se passe bien. J'ai juste un problème dans "BST blanc", avec un fichier de notices de périodiques. Pour ce fichier uniquement (sur environ une centaine ou plus de fichiers traités), lorsque je valide le lancement de l'alignement, l'opération est interrompue avec le message 

 

Exception in Tkinter callback
Traceback (most recent call last):
  File "tkinter\__init__.py", line 1699, in __call__
  File "noticesbib2arkBnF.py", line 2778, in <lambda>
  File "noticesbib2arkBnF.py", line 2305, in launch
  File "noticesbib2arkBnF.py", line 2272, in file2row
  File "noticesbib2arkBnF.py", line 2128, in item2id
  File "noticesbib2arkBnF.py", line 2079, in item2ppn_by_id
  File "noticesbib2arkBnF.py", line 1178, in issn2sudoc
  File "funcs.py", line 698, in __init__
IndexError: list index out of range
 

J'ai repéré à chaque fois le n° de notice qui passait au moment de l'arrêt du programme. J'ai bien-sûr fait des tests en n'essayant de charger que cette notice ==> plantage. Je vous envoie le fichier en question. Certaines notices sur lesquelles BST avaient planté ont pu finalement être intégrées en les passant "individuellement" : 1/38103, 1/30521, 1/38234, 1/38589, 1/38655. Les notices problématiques, qui n'ont pu être alignées, même en les passant seules dans BST : 1/38106, 1/38228, 1/38230, 1/38236, 1/38241, 1/38242, 1/38464, 1/38592, 1/38659.J'ai stoppé mes tests à partir de la notice 38359.

 

J'utilise la version bibliostratus_1.24.

 

Merci d'avance pour votre avis d'experts !

 

Bonne semaine.

 

Catherine Bretéché

Médiathèques de Brest

Service Applications informatiques et Traitement des données

catherine.breteche@mairie-brest.fr

Notices_030001_040000-PER-texte-périodiques.txt

Partager ce message


Lien à poster
Partager sur d’autres sites
Bernard Bibliosurf

Bibliostratus est un superbe outil.

Mais avez-vous déjà pensé à récupérer le lien ARK par le SRU directement avec l'ISBN du document ?

C'est ce que je fais sur https://www.bibliosurf.com et ça marche vraiment bien.... oui je sais pour des livres. 
Dès qu'un internaute affiche une notice sans BNF ARK, un script interroge le SRU  et si il trouve la donnée dans la notice UNIMARC la copie dans la base.

Pour info : le taux de recouvrement est de plus 90% sur Bibliosurf.

 

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
On 2/5/2019 at 2:14 PM, Bernard Bibliosurf said:

Bibliostratus est un superbe outil.

Mais avez-vous déjà pensé à récupérer le lien ARK par le SRU directement avec l'ISBN du document ?

C'est ce que je fais sur https://www.bibliosurf.com et ça marche vraiment bien.... oui je sais pour des livres. 
Dès qu'un internaute affiche une notice sans BNF ARK, un script interroge le SRU  et si il trouve la donnée dans la notice UNIMARC la copie dans la base.

Pour info : le taux de recouvrement est de plus 90% sur Bibliosurf.

 

 Merci pour l'appréciation :-)

Je n'ai pas bien compris ce que tu suggères : Bibliostratus va effectivement interroger les ISBN dans le catalogue pour récupérer les ARK BnF. A défaut d'ISBN, il utilise d'autres métadonnées (pour les autres types de documents, notamment). Et quand il y a un ISBN qu'il le trouve dans le catalogue, il réalise plusieurs contrôles successifs pour éviter le problème des ISBN attribués successivement à plusieurs ouvrages.

Partager ce message


Lien à poster
Partager sur d’autres sites
Bernard Bibliosurf

Effectivement, tu as raison.  Bibliostratus effectue des recherches avec d'autres métadonnées.

Je fais le malin avec Bibliosurf, un cas de figure très simple.

 

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully

 

On 2/5/2019 at 12:37 PM, kateB said:

J'utilise la version bibliostratus_1.24. 

 

Je viens de tester le même  jeu de données sur la version 1.25, sans rencontrer le problème. J'imagine qu'il a été identifié à l'automne dernier et corrigé à ce moment-là.

Par ailleurs, je signale qu'il y avait des problèmes de diacritiques dans le le fichier en question. Cf. en PJ le fichier où j'ai "nettoyé" ces problèmes en faisant simplement du chercher-remplacer

Notices_030001_040000-PER-texte-périodiques.txt

Partager ce message


Lien à poster
Partager sur d’autres sites
kateB

 

il y a 39 minutes, Lully a dit :

 

 

Je viens de tester le même  jeu de données sur la version 1.25, sans rencontrer le problème. J'imagine qu'il a été identifié à l'automne dernier et corrigé à ce moment-là.

Par ailleurs, je signale qu'il y avait des problèmes de diacritiques dans le le fichier en question. Cf. en PJ le fichier où j'ai "nettoyé" ces problèmes en faisant simplement du chercher-remplacer

Notices_030001_040000-PER-texte-périodiques.txt

 

Merci ! En effet j'avais remarqué les diacritiques problématiques. Je suis en train d'aligner le fichier corrigé, il passe impeccablement. Je vais m'empresse de télécharger la version 1.25.

Partager ce message


Lien à poster
Partager sur d’autres sites
CFCB Bretagne-Loire

Bonjour à tous,

Une journée d'étude sur la TB et 2 ateliers Bibliostratus (un atelier pour les personnels d’État, un atelier pour les personnels territoriaux) sont proposés à Brest le jeudi 4 avril.

Une journée ouverte à toutes et tous, pour faire le point et approfondir les enjeux et la mise en œuvre la transition bibliographique. La médiathèque François Mitterrand - Les Capucins à Brest accueillera pour la première fois le 4 avril 2019 tous les acteurs de la coopération nationale pour cette journée professionnelle organisée par le CFCB Bretagne Pays de la Loire, le CNFPT Bretagne, la bibliothèque départementale du Finistère et Livre et Lecture en Bretagne.

 

Cette journée d'étude s'adresse à tout public intéressé par la transition bibliographique : administrateurs de SIGB, coordinateurs Sudoc, responsables de départements collections, gestionnaires de données bibliographiques, catalogueurs, confirmés ou débutants, directeurs d’établissements, élus ...

 

Programme et inscriptions à la journée d'étude

 

Elle s'accompagne d'ateliers sur l'outil d'alignement de données Bibliotratus.

Détails, prérequis et inscription

flyer JE TB verso.png

Partager ce message


Lien à poster
Partager sur d’autres sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Invité
Répondre à ce sujet…

×   Vous avez collé du contenu avec mise en forme.   Restaurer la mise en forme

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.


×
×
  • Créer...