Bibliostratus : mettre en correspondance ses notices avec celles de la BnF

le 13 avril 2018

Bonjour, j'ouvre un nouveau sujet lié à la Transition bibliographique en bibliothèques, principalement de lecture publique (je vous entends déjà : ô joie et bonheur )

Dans de précédents topics, l'on avait débattu de la récupération de notices "FRBRisées" auprès de la BnF : quel calendrier et surtout, comment ? Il y a bien sûr la question du format et de son évolution mais il y a d'abord la question des outils et des clefs de recherche pour déterminer quel est l'équivalent à la BnF d'une notice d'un catalogue local. En effet, ni l'ISBN ni l'EAN ne peuvent être des clefs de recherche pleinement satisfaisantes (je ne développe pas, c'est assez bien connu).

Et c'est là que les nouveaux identifiants pérennes ARK présents dans les notices prennent toute leur dimension. Mais comment les retrouver, les exploiter pour la mise en correspondance des données et comment les récupérer (ainsi que les autres données des notices bibliographiques ou d'autorité si besoin) pour faire ce qu'on appelle un (ré)alignement des données ?

Devant ces attentes, nous avons développé un logiciel dans le cadre des travaux du groupe Systèmes & Données de la Transition bibliographique, grâce aux compétences du département des Métadonnées de la BnF et à l'expérimentation pilote des Médiathèques de Montpellier.

Je vous annonce donc en avant-première le lien de téléchargement de ce logiciel nommé Bibliostratus* et les premiers éléments de documentation et de tutoriels : https://github.com/Transition-bibliographique/bibliostratus/wiki

* : Bibliostratus pour "Stratégie d'Alignement d'URIs pour la Transition bibliographique"

Bien évidemment, si l'on n'est déjà plus sur la version bêta, il est encore un peu tôt pour parler de version complètement stable. On pourrait dire que c'est une RC en somme... (davantage de tutoriels et d'information sont à venir sur le site officiel et le GitHub).

C'est pourquoi nous (groupe Systèmes & Données) qui utilisons le logiciel en test depuis quelques mois, pouvons essayer de répondre à vos questions et vous accompagner dans son usage. Notre but est de vous aider à analyser vos données et à les mettre en correspondance avec celles de la BnF le cas échéant, à partir des identifiants ARK. A charge à chacun d'importer ensuite tout ou partie des données, éventuellement avec le concours de son fournisseur de SIGB.

En effet, il ne s'agit pas de plaider pour importer toutes les données BnF (libre à chaque bibliothèque de définir sa propre politique de catalogage), mais de faire en sorte que les notices locales disposent autant que possible d'un ARK BnF, indispensable à l'avenir dans le cadre de la Transition bibliographique.

Modifié le 20 avril 2018 par Renaud @ruralsmart
Typographique

le 13 avril 2018

Cool !

Et je vois que Lully est de la partie.

Bernard

le 13 avril 2018

Je n'ai strictement rien compris, mais j'approuve la démarche. Et ce n'est pas de l'ironie. Vivement la retraite !

le 16 avril 2018

J'ai peut-être été un peu rapide dans mes explications, alors je complète en essayant d'être méthodique :

les deux agences bibliographiques (BnF et Abes) ont engagé des chantiers de traitement rétrospectif de leurs catalogues pour les "FRBRiser" ;
depuis 2016 (et cela va s'accentuer dans les années à venir, pour l'instant c'est encore succinct) les bibliothèques peuvent donc télécharger des notices d'oeuvres de la BnF ;
mais pour pouvoir récupérer ces oeuvres et les rattacher automatiquement aux bonnes notices bibliographiques (qui s'apparentent à la manifestation au sens FRBR), il faut que le SIGB puisse s'appuyer sur un identifiant unique, pérenne et univoque. Cet identifiant est l'ARK (et non le n° FRBNF en encore moins l'ISBN ou l'EAN) ;
ce logiciel BiblioStratus propose donc d'analyser votre fonds (à partir d'extractions de paniers de notices) et de mettre en correspondance vos notices avec celles de la BnF ;
ce qui vous permettra, avec un bon taux de recouvrement d'après nos premiers tests à Montpellier, de disposer suite à ce traitement, des identifiants ARK de la BnF dans presque toutes vos notices (à importer en 033 de l'UNIMARC/B) !

Et voilà le travail

le 17 avril 2018

Le 14/04/2018 à 00:34, Ferris a dit :

Je n'ai strictement rien compris, mais j'approuve la démarche. Et ce n'est pas de l'ironie. Vivement la retraite !

Bien, alors je vais te donner un petit aperçu de l'intérêt du format Ark (Archival Resource Key), tel qu'il apparaît.

C'est vrai, à priori, ça paraît complexe. _{(et ça l'est sous la surface)}

Seulement, voyons voir sur quelques exemples concrets l'avantage du système ark _{de triomphe.}

Tu le sais, une page web est constituée de plusieurs éléments : textes, images, sons, etc. qui s'affichent au fur et à mesure.

Certains se sont dit : hey, me ce serait chouette de pouvoir accéder directement à l'image 1 de cette page et de l'afficher en grand, ou bien d'ouvrir juste le texte du deuxième paragraphe, le son 3.

Dans le cadre d'un livre : ouvrir une page directement par exemple.

Un ark et des flèches vers les cibles.

Chaque flèche reliée à une corde que tu peux tirer à toi. (autant dire un lien internet)

Si tu regardes ici

http://www.bnf.fr/images/ark_structure.gif

_{mmbll, ils ne l'affichent pas en jpg}

tu verras que le lien est formé comme suit

http://gallica.bnf.fr/ark:/12148/bpt6k107371t/f004.thumbnail

les petites données facultatives sont les plus intéressantes. Car les plus pratiques à l'usage.

ici

f004.thumbnail

page 4, affichage thumbnail

Quand tu lis thumbnail (format icône), tu penses aussitôt à l'affichage dans l'OPAC

Basse définition = lowres

allons-y, corrigeons thumbnail par lowres

http://gallica.bnf.fr/ark:/12148/bpt6k107371t/f004.lowres

haute définition = highres

http://gallica.bnf.fr/ark:/12148/bpt6k107371t/f004.highres

Si tu cliques sur le lien, tu verras que l'image est parfaitement lisible dans ton navigateur. Le forum réduit l'affichage des images

Hum, utilise plutôt ce lien, avec du texte à lire, ce sera plus parlant.

http://gallica.bnf.fr/ark:/12148/bpt6k107371t/f030.highres

Tu l'as remarqué : un simple petit changement de mot à la fin de l'adresse, et tu as trois affichages possibles. Pour trois usages potentiels.

Il en faudrait certainement un autre : superhighres pour les malvoyants.

Ou alors pour un tableau, ou un plan afin de voir les détails. (le format Ark n'est pas exclusif au monde du livre. Cf. en bas pour la liste des organismes qui l'utilisent)

Ces trois images sont contenues dans la page web de la notice.

Avoir l'Ark à disposition va donc permettre d'accéder à cette notice et de l'afficher partout dans le monde.

Ce document est ancien, il n'a ni ISBN, ni EAN. (=> l'ISBN et l'EAN ne sont pas pertinents, puisque trop récents)

Tu veux du son ?

Pas plus difficile.

http://gallica.bnf.fr/ark:/12148/bpt6k1279113/f1.audio

Et le thumbnail correspondant

Pas trop lisible, hein ?

Le lowres

Si tu veux la notice complète

efface /f1.audio

http://gallica.bnf.fr/ark:/12148/bpt6k1279113

Maintenant, ce qui est faisable pour les livres, l'est aussi pour les personnes.

Exemple sur Victor Hugo

http://catalogue.bnf.fr/ark:/12148/cb39508046q

Allez tiens, j'essaie pour les Martine

Hum, ploc de flûte, je n'arrive pas à accéder aux différents formats d'image de Martine à la ferme

http://catalogue.bnf.fr/ark:/12148/cb43594091q

Sans doute pour des questions de droits d'auteurs, ou alors parce que les images ne sont pas encore disponibles dans la notice.

Voilà ce que sont en train de nous apporter Lully et Renaud. Cet accès.

Cet accès qui va se généraliser dans tous les domaines.

Tu cherches la notice d'un appareil, tu utiliseras l'Ark de la notice de cet appareil.

(Si les industriels ne le font pas, les bibliothécaires pourraient/devraient le faire, ce qui éviterait à des millions de gens de chercher pendant des heures une notice ou un mode d'emploi d'un appareil, ou d'un jeu de société, etc. Ok, Ok, je suis peut-être trop pratico-pratique dans l'idée et trop à vouloir que les bibliothèques deviennent une ressource incontournable du monde.)

Petit exemple de la puissance du concept.

On le retrouve dans le schéma de l'Internet. IP = Internet Protocole.

Espace d‘adressage de IPv4: 32 bits = 2³² adresses ≈ 4,3 milliards d‘adresses

Espace d‘adressage de IPv6: 128 bits = 2¹²⁸ adresses ≈ 340 sextillions d’adresses

Les chiffres permettent de constater clairement l‘énorme écart entre les deux protocoles : alors que l’espace d’adressage de IPv4, avec près de 4,3 milliards d’IP, est loin de permettre de fournir une adresse unique à chaque individu sur terre, un système à 128 bits pourrait en théorie permettre d’attribuer plusieurs adresses à chaque grain de sable de notre planète ! L’introduction d’IPv6 permet ainsi d’investir pour le futur. En effet, des tendances comme celles décrites par l’internet des objets (« Internet of Things », IoT) suggèrent que le nombre d’appareils connectés à Internet et qui doivent être clairement identifiés, augmentera de manière significative dans les prochaines années.

Chaque grain de sable de la planète !

On est en plein sur le catalogage du monde.

Autant dire que demain, je me connecterai à l'Ark de Ferris, et je pourrai regarder point par point chaque vêtement qu'il porte.

Ark/Ferris.chaussette.gauche

Ark/Ferris.godasse.droite

Et en obtenir une représentation physique en 3D, je te prie.

Le potentiel est énorme. Et même à la retraite, tu vas y être confronté.

Voilà le plus visible de cet énorme iceberg qui arrive devant nous.

Bernard (qui pense que quelques exemples facilitent toujours la compréhension... enfin peut-être)

format de l'ARK

http://www.bnf.fr/fr/professionnels/issn_isbn_autres_numeros/a.ark.html

Autres organismes utilisant l'ARK

http://www.bnf.fr/fr/professionnels/anx_isbn_issn_autres/a.faq_ark.html

Pas d'ISBN ou d'EAN dans le monde des archives

le 17 avril 2018

Le 16/04/2018 à 08:33, Renaud @ruralsmart a dit :

ce logiciel BiblioStratus propose donc d'analyser votre fonds (à partir d'extractions de paniers de notices) et de mettre en correspondance vos notices avec celles de la BnF ;

Pas la peine de jargonner Bernard, cette seule phrase m'a informé et rassuré. Elle est utilisable. Et la plupart des gens s'en contentent. Pragmatiques, les bibliothécaires. Et polyvalents. Donc on va a l'essentiel. Pas le temps de devenir autre chose.....

le 17 avril 2018

il y a 53 minutes, Ferris a dit :

Pas le temps de devenir autre chose.....

Vraiment ?

Lully et Renaud sont bibliothécaires... et ils sont pourtant en plein dedans.

Et je peux te garantir que là aussi il y a du boulot pour les bibliothécaires. Et pas qu'un peu !

le 17 avril 2018

@B. Majour En réalité, sur les objectifs du logiciel, c'est plutôt @Ferris qui touche le point central : derrière les ARK il pourrait y avoir les accès aux images, vignettes, etc. -- sauf qu'en l'occurrence il s'agit d'ARK désignant les notices du catalogue, et pas celles des ressources sur Gallica. Donc si on part sur le fond de roulement d'une BM normale, il s'agit plutôt de documents non numérisés (sous droits).

L'intérêt du logiciel, c'est d'apporter l'ARK BnF, donc la notice BnF, donc à terme l'arbre FRBR/LRM qui va venir avec : les métadonnées de l'oeuvre, de l'expression, les autorités liées, etc.

Pendant que la BnF bosse à la FRBRisation, les BM peuvent

soit attendre que ce soit fini, et alors se dire "bon, maintenant comment on récupère tout ça ?"
soit prévenir ce besoin, en identifiant en amont, dans les mois qui viennent, quelles sont les notices BnF qui correspondent aux leurs

le 18 avril 2018

Il y a 13 heures, Lully a dit :

L'intérêt du logiciel, c'est d'apporter l'ARK BnF

Oui, pour moi c'est ça l'essentiel : ce lien internet fiable, stable et pérenne vers une description.

Aujourd'hui, petit point de détail en 033 de l'Unimarc, demain principal chemin d'accès à la récupération des données... ou à la circulation sur le Web, voire dans un OPAC.

C'est ce pointeur d'accès qui offre ce potentiel.

Enfin une structure web arborescente dans le monde des données bibliographiques.

Il y a 13 heures, Lully a dit :

Pendant que la BnF bosse à la FRBRisation, les BM peuvent

soit attendre que ce soit fini, et alors se dire "bon, maintenant comment on récupère tout ça ?"

soit prévenir ce besoin, en identifiant en amont, dans les mois qui viennent, quelles sont les notices BnF qui correspondent aux leurs

La situation me semble plus simple que ça : comment l'éditeur de SIGB va-t-il pouvoir mettre en oeuvre les avantages de l'ARK ?

Stocker la donnée, oui, certes... et ensuite ?

Comment on l'exploite ?

le 18 avril 2018

effectivement les fournisseurs n'ont pas encore répondu sur ce point là

pour l'instant on peut déjà (si on a un vendangeur bien paramétré ... qu'est ce qu'on récupère OU pas): voir les notices qui posent problèmes (pas d'ISBN, pas de date, pas de concordance avec le titre de la BNF ...) et donc travailler sur le nettoyage de nos bases

si on a pas de vendangeur alors il faut voir avec son fournisseur comment intégrer les données

les tests montrent qu'il va falloir se méfier des BD et mangas ... (la BNF ne fait pas forcément comme les BM) ainsi que des documents avant les années 2000 car il y a des ISBN problématiques (redonnés à un autre titre ... voir à un autre éditeur)

pour moi c'est aussi de bien prendre conscience de ce que l'on récupère (les autorités en ENTIERs, les éditeurs, collections, titre de série en ENTIERs .... ISNI, renvois, sources ...) à la BNF OU Sudoc ou ????

effectivement il y a du travail mais Bibliostratus va être un outils majeur pour les petites bibliothèques dans la compréhension de ce qu'est la Transition et dans la mise à niveau des bases

le 18 avril 2018

il y a 34 minutes, irassant a dit :

Bibliostratus va être un outils majeur pour les petites bibliothèques

Et pour les petits bibliothécaires aussi !

le 18 avril 2018

il y a une heure, irassant a dit :

un outil majeur pour les petites bibliothèques

J'ai des doutes sur les petites bibliothèques. Là, on va plutôt attendre le développement des SIGB et la maturité de Bibliostratus.

Et peut-être une formation BDP sur le sujet.

Ce qui n'empêche pas de tester.

Pour l'instant, je suis plutôt dans les cumulus du logiciel avec des fichiers Unimarc qu'il n'aime pas manger.

Ceux de mon logiciel, ceux de la BDP, ceux fournis par Moccam... crunch... burp ! => , il en veut pas. _{Erreur decodeur UTF8}

Question : Il y a une adresse mail particulière où faire remonter fichiers de tests et les erreurs indiqués par le logiciel ?

(A noter : ce serait plus pratique de générer un fichier txt d'erreurs ou de réussite, en plus de l'affichage à l'écran, pour diagnostiquer les problèmes, et les faire remonter)

Bon, je me rabats sur le paquet de notices intitulé : noticesbib.iso

5,8 Mo,

Convertir un fichier unimarc en tableaux.

Mouline, mouline, mouline.

Là, ça fonctionne.

3735 notices.

Export dans le dossier d'origine, avec tout un tas de fichiers txt (ce serait mieux d'avoir un dossier d'exportation)

J'en prends un petit,

-PER-ressource électronique-périodiques.txt

je l'attrape par la queue du bouton blanc : aligner ses données BIB... (etc.)

Je sélectionne l'option PER

Et je lance.

Et il s'affiche des ARK à l'écran noir.

Et je cherche un fichier créé... que je ne vois pas.

Je relance donc la manoeuvre en cochant "plusieurs fichiers".

Ils sont là avec le nom -résultats *

Là encore, il faut un dossier séparé pour le résultat de cette opération. Avec le nom ARK en début ce serait plus logique (pour le dossier ou pour les fichiers), ou alors pour le nom de dossier résultat.

Parce qu'il y a du monde dans le train des txt.

Et c'est pas facile de s'y retrouver.

Bon, pour moi, pas étonnant que les fichiers des petites bibliothèques ne passent pas.

Le parc SIGB est hétérogène et les fichiers Unimarc... hum... plein de problèmes avec les accents.

Petit bug.

Quand on clique sur Aligner ses données AUT

Puis sur documentation en ligne, c'est bing qui s'affiche dans le navigateur, pas la doc Github.

le 18 avril 2018

Bonjour @B. Majour

merci pour tous ses retours, positifs et négatifs

Il y a plusieurs niveaux de problèmes et de réponses :

oui, le logiciel n'est pas abouti, mais les bugs résiduels sont en général rapides à corriger. Et pour les trouver il fallait élargir le champ des testeurs
sur la prise en main, le principal problème était de comprendre à quoi ça servait et comment s'en emparer -- pour ça, ça me semble plutôt positif (en dépit des problèmes techniques rencontrés)
la plus grosse difficulté à laquelle on va être confrontée, c'est précisément celle-là : l'impossibilité de maîtriser ce qui va arriver dans le logiciel, c'est à dire les données extraites des SIGB

Il y a des problèmes "internes" aux données : les zones codées sont mal renseignées suites à des duplications de notices sans correction postérieure, etc., les ISBN ressemblent à tout sauf à un ISBN, etc.

Et les problèmes externes aux données : notamment -- l'encodage !

On a fait un certain nombre d'améliorations par rapport au point de départ. Mais sans avoir pu rencontrer tous les cas de figures : c'est seulement en les voyant passer qu'on peut définir une bonne manière de faire réagir le logiciel. Et pour ça, il faut avoir des collègues qui fassent des exports SIGB.

Donc encore merci pour ces tests !

Et alors justement, puisque vous posez la question : si vous rencontrez des soucis, c'est ici, sur ce forum, que ça peut se passer : on capitalise ainsi sur les difficultés rencontrées - et les réponses apportées

Donc je veux bien une copie d'écran (ou un copier-coller du texte) de l'erreur rencontrée quand vous avez eu un souci d'encodage du fichier exporté du SIGB.

Ainsi je pourrai voir si l'erreur s'affiche dans le terminal ou une pop-up, si elle est prévue par le programme ou pas (certaines erreurs sont prévues, et s'affichent dans le terminal, sans faire planter le logiciel pour autant)

Ce forum permet de mettre des pièces jointes : donc des copies d'écran en PJ iront très bien.

Je suis étonné de l'absence de fichier résultat quand on sélectionne un seul fichier. Pour avoir déjà utilisé ce logiciel pour des dizaines de milliers de notices, à aucun moment j'ai eu une absence de fichier généré.

Aviez-vous mis par exemple un identifiant de traitement ? Dans le cas contraire il a simplement créé un fichier commençant par "-résultats" dans le répertoire bibliostratus.

le 18 avril 2018

Dans le module rouge "Exporter des tableaux à partir de fichiers Unimarc", est-ce qu'une option "Encodage du fichier : UTF-8 / ISO-8859-1" serait utile, voire indispensable ?

(ce sont les 2 seuls encodages que je sois en mesure de proposer...)

le 18 avril 2018

à l’instant, Lully a dit :

Je suis étonné de l'absence de fichier résultat quand on sélectionne un seul fichier. Pour avoir déjà utilisé ce logiciel pour des dizaines de milliers de notices, à aucun moment j'ai eu une absence de fichier généré.

Non, non, il y était mais il s'est caché dans les autres. Au milieu des 29 autres fichiers txt, il n'était pas facile à voir.

C'est pour ça qu'un dossier spécifique permettrait de trier les éléments.

Je note pour "l'identifiant de traitement". Je pensais que c'était autre chose et non pas le nom de fichier en sortie.

il y a 2 minutes, Lully a dit :

oui, le logiciel n'est pas abouti, mais les bugs résiduels sont en général rapides à corriger. Et pour les trouver il fallait élargir le champ des testeurs

Tout à fait. Corrections rapides, c'est toute l'utilité d'un bêta-test.

il y a 3 minutes, Lully a dit :

"Encodage du fichier : UTF-8 / ISO-8859-1"

Je pense que oui.

L'erreur est la suivante (Ferris, détourne les oreilles, là c'est du vrai jargon informatique, langage python)

Fichier en entrée : F:/bdp.pan
Exception in Tkinter callback
Traceback (most recent call last):
File "tkinter\__init__.py", line 1699, in __call__
File "marc2tables.py", line 705, in <lambda>
File "marc2tables.py", line 519, in launch
File "marc2tables.py", line 291, in iso2tables
File "C:\Anaconda\lib\codecs.py", line 321, in decode
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc2 in position 433: invalid continuation byte

_{Foutu codage de caractères, tiens.}

_{Les américains sont tranquilles sur ce problème.}

Correspond au caractère

Â (Grand A Circonflexe)

Caractère obtenu via Excel, formule stxt

extrait de la notice : bTexte imprimÂe

formule Excel utilisée : =STXT(A1;420;16)

Donc oui, je pense que l'ISO-8859-1 devrait résoudre ce problème. Même si, en regardant la tête à Ferris , tu verras vite que c'est du jargon un peu/beaucoup réservé à des spécialistes du problème. Mais bon, si on leur dit dans la doc : si ça ne marche pas en en UTF-8 tentez votre chance en ISO-8859-1, ça devrait le faire.

Question supplémentaire.

Si le bouton "Exporter une liste d'ARK Bnf en notices" est en rouge, c'est parce que c'est en cours de construction ?

Merci à toi et à l'équipe pour ce logiciel.

le 18 avril 2018

21 minutes ago, B. Majour said:

je pense que l'ISO-8859-1 devrait résoudre ce problème.

Ce serait possible d'avoir un exemple de fichier en iso-8859-1 (via Wetransfer, par exemple) pour tester si ce que je viens de modifier fonctionne ?

22 minutes ago, B. Majour said:

Si le bouton "Exporter une liste d'ARK Bnf en notices" est en rouge, c'est parce que c'est en cours de construction ?

Ben non, c'est parce que le logiciel se conçoit dans un workflow bleu (préparer les tableaux) - blanc (aligner les notices) - rouge (récupérer les notices Marc).

le 18 avril 2018

@B. Majour Suis-je bête ! Je vais utiliser Moccam aussi pour avoir un fichier iso-8859-1

le 18 avril 2018

Il y a 3 heures, B. Majour a dit :

(Ferris, détourne les oreilles, là c'est du vrai jargon informatique, langage python)

Moi oui, je parcours ça d'un derrière distrait comme on dit dans le beau monde, mais je vais montrer ça à mon beauf, l'ingénieur, celui qui fabrique des programmes, pour lui prouver qu'on n'est quand même pas que des rigolos dans cette profession, ce qu'il a toujours eu une certaine tendance à croire...

Et s'il n'y comprend rien, je ne manquerai pas de vous en faire part.

En attendant , et bien qu’extérieur au sujet, je plussoie la proposition de Lully :

Il y a 4 heures, Lully a dit :

Et alors justement, puisque vous posez la question : si vous rencontrez des soucis, c'est ici, sur ce forum, que ça peut se passer : on capitalise ainsi sur les difficultés rencontrées - et les réponses apportées

ça c'est professionnel !

le 19 avril 2018

8 hours ago, Ferris said:

je vais montrer ça à mon beauf, l'ingénieur, celui qui fabrique des programmes

Autant prévenir, le programme n'a pas été écrit par un développeur labellisé -- donc il se peut qu'il rigole

le 19 avril 2018

Il y a 18 heures, Lully a dit :

Ben non, c'est parce que le logiciel se conçoit dans un workflow bleu (préparer les tableaux) - blanc (aligner les notices) - rouge (récupérer les notices Marc).

Sympa cette image sur T-shirt

Vous avez pensé à un logo pour le logiciel ?

Il y a 18 heures, Lully a dit :

@B. Majour Suis-je bête ! Je vais utiliser Moccam aussi pour avoir un fichier iso-8859-1

Bons réflexes !

Oui, là, tu auras plusieurs formats différents. Et s'il y a plusieurs formats, ça montre bien les problèmes de la récupération, pas si simple que ça.

Il y a 8 heures, Lully a dit :

Autant prévenir, le programme n'a pas été écrit par un développeur labellisé -- donc il se peut qu'il rigole

Aucune raison qu'il rigole !

Ton code est propre, clair, bien indenté.

Manque peut-être un peu de commentaires pour expliquer les choses... mais c'est pareil chez tous les codeurs, surtout les pros.

Le problème, ce sera quand tu voudras reprendre le code plus tard (disons dans un an, ou deux par exemple) et qu'il faudra que tu te replonges dans le sujet.

C'est à ça que servent les commentaires un peu plus fournis : comprendre - plus tard - ce que l'on a fait aujourd'hui.

Et si les commentaires encombrent un peu trop le programme, tu peux les écrire à part.

Comme le log des problèmes rencontrés... et résolus. (=> ce log des problèmes, c'est l'historique du programme et de sa conception. Un document utile à montrer à son patron/tutelle)

Par contre, souvent long et fastidieux à écrire, donc on passe. A un autre programme plus urgent ou plus intéressant à concevoir.

le 19 avril 2018

@B. Majour Et pourtant, j'ai l'impression d'avoir beaucoup beaucoup documenté (cf. notamment la doc technique, qui décrit assez précisément ce que fait le programme, même s'il ne nomme pas les fonctions) !

mais au départ j'ignorais certaines pratiques sur la manière de documenter une fonction

le 19 avril 2018

@B. Majour J'ai parfaitement conscience des problèmes d'encodage. Mais je considère qu'autant que possible, ce problème doit être résolu en amont. Par exemple j'ai ouvert le fichier iso2709 que tu m'as envoyé, avec Notepad++, pour essayer d'identifier quel était l'encodage du fichier (j'en teste plusieurs, en regardant si les accents s'affichent bien - cf. cette rubrique de l'aide en ligne sur Github).

Après avoir testé 6 encodages distincts (les plus fréquents), qui ont tous échoué, j'ai tendance à considérer qu'après tout, c'est au fournisseur du SIGB de documenter ce qu'il exporte : est-ce de l'UTF-8, de l'iso-8859-1, du windows-1252 ? Etc. J'ai aussi fait des tests d'exports vers XML avec MarcEdit : impossible d'avoir un affichage XML correct.

Ce n'est donc pas vraiment Bibliostratus qui est en cause (puisque je n'y arrive pas mieux avec MarcEdit), mais l'export iso2709, ou l'absence de documentation sur l'encodage de cet export.

Le coeur de Bibliostratus, c'est l'interrogation systématique du catalogue BnF à partir d'une liste de notices au format tabulé, en appliquant des règles de contrôle métier.

Le premier module (le bleu) sert de facilitateur, pour les bibliothèques qui ne sauraient pas générer des tableaux de données : il rend un certain nombre de services, à condition qu'on lui fournisse des données qu'il puisse exploiter. Il n'est pas envisageable de consacrer trop de temps à ce module-là : il est possible de préparer ses données autrement, ou (si le prestataire fournit les informations qu'on lui demande) de passer au pire par du XML UTF-8 grâce à MarcEdit.

Il me semble que ces deux contraintes (demander au prestataire, convertir en XML) ne sont pas bloquantes.

le 19 avril 2018

il y a 6 minutes, Lully a dit :

Ce n'est donc pas vraiment Bibliostratus qui est en cause

Ah non, en aucune façon. Bibliostratus est excellent.

Sans doute pas parce qu'il traite uniquement du format UTF8, mais surtout parce qu'il donne la marche à suivre... à tout concepteur de SIGB qui voudra réutiliser ce que tu as développé pour l'adapter au format de son logiciel.

Comme tu l'as constaté les formats, c'est le bordel.

Et c'est encore pire avec les notices qui ne supportent pas un seul caractère de décalage sous peine de véroler tout le fichier de notices. (Sinon, on aurait pu traiter le problème en amont, en corrigeant les accents, et roule petite boule de souris ton programme aurait tourné aux petits oignons)

Tu comprends maintenant mieux pourquoi il est plus que souhaitable de passer par un format ARK standardisé, avec un encodage précis. Qui va rendre service à tout le monde. Enfin, surtout aux bibliothécaires.

Continue ton développement comme si tout marchait en entrée.

Les prestataires vont se débrouiller, mais ils doivent prévoir la suite : à quoi va servir l'ARK ? Comment on peut l'utiliser par la suite ?

Parce que les conséquences risquent de les impacter plus qu'un petit formatage d'entrée des notices Unimarc.

il y a une heure, Lully a dit :

Et pourtant, j'ai l'impression d'avoir beaucoup beaucoup documenté (cf. notamment la doc technique, qui décrit assez précisément ce que fait le programme, même s'il ne nomme pas les fonctions) !

Oui, c'est un bon début pour une documentation technique.

En tout cas, pour ce que tu veux en faire, c'est déjà très bien. Rajoute, si tu peux le nom des variables dans la doc technique ou plutôt transfère tes explications en commentaires dans le programme, ce sera plus simple (au moins pour les gros titres, de façon à pouvoir rapprocher les explications et le code).

Et là, tu auras fait un travail bien plus pro que beaucoup de pros.

le 20 avril 2018

Hello à tous, je réagis à retardement :

1/ oui, l'encodage des fichiers d'export est clairement est gros point noir.

Ce n'est pas Bibliostratus qui est en cause, mais cependant @Lully travaille à rendre les messages d'erreur plus explicites pour que les utilisateurs puissent identifier le problème.

Par ex., nous à la MD du Puy-de-Dôme avec Orphée Media.Net, notre fichier n'est clairement pas en UTF-8 et n'est pas "sans BOM" non plus ! Il nous a donc fallu suivre la procédure de conversion avec MarcEdit et Notepad++ : https://github.com/Transition-bibliographique/bibliostratus/wiki/1-[Bleu]-Préparer-ses-données-pour-l'alignement-à-partir-d'un-export-catalogue#un-problème-dencodage--passez-en-xml-avec-marcedit

On a prévu de faire un tutoriel plus détaillé car cela va vraisemblablement être un problème récurrent... Il faut qu'on y travaille sans trop tarder vu vos retours (surtout que tous les utilisateurs ne seront pas aussi habiles que @B. Majour).

Je pense que ce sera aussi une bonne occasion pour les clients de demander à leurs fournisseurs de respecter l'UTF-8 comme c'est normalement exigé dans les CCTP (mais finalement pas respecté, ce dont on prend conscience à cette occasion).

2/ concernant les ARK et la nuance dans le fonctionnement entre ceux de Gallica et ceux du Catalogue général.

Merci @B. Majour d'avoir si bien décrit leur intérêt. Je rejoins les compléments d'Etienne à @Ferris : il faut apporter une distinction claire sur le statut de la référence dans chacun des deux cas (ceci explique cela).

Dans un cas, l'URI donne accès à la donnée, soit la ressource elle-même (la numérisation dans Gallica).

Dans l'autre, l'URI donne accès aux données sur la donnée, soit les métadonnées descriptives d'une ressource (nos fameuses "notices bibliographiques ou d'autorité").

J'aime bien renvoyer vers cette présentation de Fabien Gandon pour saisir les URI (indépendamment du système ARK, celui retenu par la BnF et par une très large communauté), diapos 12 à 16 en l'occurrence :

Modifié le 20 avril 2018 par Renaud @ruralsmart

le 15 juin 2018

Bonjour,

Une collègue m'a demandé de tester bibliostratus :

- extraction de quelques notices biblio puis conversion avec marcedit -> ok

- conversion fichier unimarc -> ok

- aligner sers données BIb -> échec

Nb ARK trouvés   Nb notices concernées
1   5
3   2
2   1

Problème d'accès aux API Abes

Problème d'accès aux API BnF

Même problème avec le fichier d'exemple sur github.

Je suis sur un réseau sans proxy.

Bonne journée

Connexion

Bibliostratus : mettre en correspondance ses notices avec celles de la BnF

Messages recommandés

Renaud @ruralsmart

Top Posters In This Topic

Popular Days

Top Posters In This Topic

Popular Days

Popular Posts

B. Majour

Ferris

Renaud @ruralsmart

Posted Images

B. Majour

Ferris

Renaud @ruralsmart

B. Majour

Ferris

B. Majour

Lully

B. Majour

irassant

Ferris

B. Majour

Lully

Lully

B. Majour

Lully

Lully

Ferris

Lully

B. Majour

Lully

Lully

B. Majour

Renaud @ruralsmart

DamienVX

Rejoindre la conversation

Naviguer

Activité