Bibliostratus : mettre en correspondance ses notices avec celles de la BnF

le 28 juin 2019

Il y a 1 heure, Lully a dit :

Bonjour @clio1130

1.1. Serait-il possible d'avoir une ligne d'exemple concerné par ce problème (ce sera plus rapide pour que je puisse le reproduire et le corriger) ?

=> Oui, je vous joins le fichier test1_3notices.iso2709 et le résultat de la conversion test1_3notices-.txt. L'ouvrage qui pose problème est WordPress pour les nuls (un auteur a un tiret dans son nom).

1.2 J'en profite pour joindre test1_2notices.iso2709 que je n'arrive pas à convertir (message d'erreur : [WinError 2] Le fichier spécifié est introuvable: 'temp_record.txt')

2. Oui, Bibliostratus prend tous les mots des zones auteurs, et il les dédoublonne (je ne sais plus s'il les trie ensuite, il n'a pas de raison de le faire) : ça évite de chercher plusieurs fois le même mot en tant qu'auteur, ce qui n'apporte rien à la recherche. La colonne Auteur est utilisé pour chercher des mots en tant qu'auteur, leur ordre d'apparition n'a pas d'importance pour la pertinence des résultats. Ce module Marc > tableaux n'est (pour l'instant ?) pas un outil d'extraction de métadonnées bibliographiques pour faire avoir des références bibliographiques à peu près propres.

=> Deux exemples avec le fichier test1_3notices.iso2709 et le résultat de la conversion test1_3notices-.txt (regardez bien les noms des auteurs pour les 2 derniers ouvrages).

Merci !

test1_2notices.iso2709 test1_3notices.iso2709 test1_3notices-.txt

le 11 juillet 2019

On 6/17/2019 at 5:52 PM, mhertig said:

Bonjour,

Je teste Bibliostratus sur nos données d'autorité, en MARC21. J'ai testé la conversion du xml vers un fichier tsv, mais seul l'identifiant système est reconnu (champs 001 de la notice MARC21). Il s'agit peut-être d'un problème de mapping. Serait-il possible de consulter le tableau de mapping, pour vérifier ?

Meilleures salutations,

Michael Hertig, Lausanne (Suisse)

Bonjour,

serait-il possible d'avoir un échantillon de notices en Marc21 ?

Sinon, voici la fonction qui identifie les zones à extraire pour chaque variable (titre, issn, etc.) quand il s'agit de Marc21 :

Petite explication : pour le keyTitle (utilisé ensuite uniquement dans le cadre des périodiques), le script récupère la 222$a, ou à défaut la 200$a+200$e.

De même, pour les auteurs, il concatène les zones 100$a$m, 110$a$m, 700$a$m et 710$a$m. Si aucune n'est renseignée, il récupère la 245$f

def metas_from_marc21(record):
    title = record2title(
        record2meta(record, ["245$a", "245$e"])
    )
    keyTitle = record2title(
        record2meta(record, ["222$a"], ["200$a", "200$e"])
    )
    global_title = record2title(
        record2meta(record, ["490$a"], ["245$a", "245$e"])
    )
    part_title = ""
    if (global_title == part_title):
        part_title = ""
    authors = record2authors(record2meta(record, [
        "100$a",
        "100$m",
        "110$a",
        "110$m",
        "700$a",
        "700$m",
        "710$a",
        "710$m",
    ],
        ["245$f"])
    )
    authors2keywords = aut2keywords(authors)
    date = record2date(record2meta(
        record, ["008"]), record2meta(record, ["260$c"]),
        "marc21")
    numeroTome = record2numeroTome(record2meta(record, ["245$n"], ["490$v"]))
    publisher = record2publisher(record2meta(record, ["260$b"]))
    pubPlace = record2pubPlace(record2meta(record, ["260$a"]))
    scale = record2scale(record2meta(record, ["034$b"], ["255$a"]))
    ark = record2ark(record2meta(record, ["033$a"]))
    frbnf = record2frbnf(record2meta(record, ["035$a"], ["801$h"]))
    isbn = record2isbn(record2meta(record, ["020$a"]))
    issn = record2isbn(record2meta(record, ["022$a"]))
    ean = record2ean(record2meta(record, ["024$a"]))
    id_commercial_aud = record2id_commercial_aud(
        record2meta(record, ["073$a"]))
    return (
            title, keyTitle, global_title, part_title,
            authors, authors2keywords, date, numeroTome,
            publisher, pubPlace, scale,
            ark, frbnf, isbn, issn, ean, 
            id_commercial_aud
            )

le 11 juillet 2019

il y a 16 minutes, Lully a dit :

Bonjour,

serait-il possible d'avoir un échantillon de notices en Marc21 ?

Bonjour,

Merci de votre réponse. Je vais examiner les informations données.

Pour l'envoi de l'échantillon, je ne peux pas le poster comme ça sur le web. Est-ce que je peux vous l'envoyer par courriel à votre adresse svp ?

le 11 juillet 2019

5 hours ago, mhertig said:

Pour l'envoi de l'échantillon, je ne peux pas le poster comme ça sur le web. Est-ce que je peux vous l'envoyer par courriel à votre adresse svp ?

Pas de problème : etienne[point]cavalie[arobase]bnf[point]fr

le 2 octobre 2019

Bonjour,

nous avons fait un export de notices d'autorités Unimarc dans un fichier au format ISO2709 que nous avons transformé avec bibliostratus en utilisant le module bleu. Avec le fichier tabulé, nous avons d'abord lancé le processus d'alignement en choisissant l'option "Aligner de préférence avec la BNF". Tout s'est passé correctement et nous avons obtenu un fichier avec des identifiants ark.

Nous avons repris le même fichier tabulé et avons lancé l'alignement en choisissant "Aligner de préférence avec Idref" en laissant coché "relancer sur isni.org" . A ce moment-là, nous avons vu dans la console de traitement plusieurs messages d'erreurs de type

https://www.idref.fr/164897976.xml

HTTP Error 404: Introuvable

https://www.idref.fr/164898042.xml

HTTP Error 404: Introuvable

Il s'affichait également de grandes listes de PPN. Le traitement a été tellement long que nous avons arrêté le processus.

Voilà l'entête du fichier pondu par bibliostratus :

N° Notice AUT FRBNF ARK ISNI Nom Prénom Date de début Date de fin

Merci d'avance pour le retour.

16H25-PERS-autorité-personne.txt

le 3 octobre 2019

@Sbouis : bonjour, manifestment Bibliostratus récupère à un endroit du programme des PPN bibliographique et les traite comme s'il s'agissait de PPN d'autorités

Mais je n'arrive pas à récupérer le fichier en PJ (16H25-PERS-autorité-personne.txt) : message d'erreur systématique. Pouvez-vous essayez de le recharger sur le forum ?

le 3 octobre 2019

nouvel essai

16H25-PERS-autorité-personne.txt

le 3 octobre 2019

Hum, toujours en erreur.

Envoyez-le directement en MP à Lully, ce sera plus simple. (pour le MP, il suffit de passer la souris sur l'icône de Ratatouille et de sélectionner MP)

Après plusieurs essais, en échec, j'ai réussi à récupérer ceci :

16H25-PERS-autorité-personneA.txt

Modifié le 3 octobre 2019 par B. Majour

le 3 octobre 2019

@sbouis Je n'arrive pas à reproduire l'erreur (cf. copie d'écran). Quelle version de Bibliostratus utilisez-vous ?

le 3 octobre 2019

@sbouis La dernière version (qui me semble stable, mais en RC) est la 1.28RC : https://github.com/Transition-bibliographique/bibliostratus/blob/master/bin/RC/bibliostratus_1.28RC_win64_py3.6.zip

le 4 octobre 2019

Il y a 11 heures, Lully a dit :

@sbouis La dernière version (qui me semble stable, mais en RC) est la 1.28RC : https://github.com/Transition-bibliographique/bibliostratus/blob/master/bin/RC/bibliostratus_1.28RC_win64_py3.6.zip

J'utilise une version 1.26

Je re-teste avec la nouvelle version.

le 4 octobre 2019

il y a 9 minutes, Sbouis a dit :

J'utilise une version 1.26

Je re-teste avec la nouvelle version.

Par contre, quand je lance bibliostratus à partir de l'extraction du zip bibliostratus_1.28RC_win64_py3.6.zip, le numéro de version affiché est 1.27. Il ne faut peut-être pas s'y fier ?

le 4 octobre 2019

il y a 5 minutes, Sbouis a dit :

Ca marche

Par contre, je ne suis pas sûre de comprendre les résultats en sortie. Je suis surprise de trouver des PPN je m'attendais plutôt à trouver des URI idref de la forme https://www.idref.fr/23832432X

au lieu de PPN23832432X

Si c'est possible, je pense que ce serait plus intéressant comme résultat.

Pour l'isni, c'est bien

il y a 5 minutes, Sbouis a dit :

le 4 octobre 2019

@Sbouis OK, je prends note (en fait, c'est justement pour enregistrer les demandes d'évolutions que j'utilise l'espace issues sur Github, et non pour répondre aux questions sur des difficultés rencontrées. Donc j'en ai fait un ticket https://github.com/Transition-bibliographique/bibliostratus/issues/60), qui fera l'objet d'une discussion par le groupe Bibliostratus (sous-groupe de Systèmes & Données) pour valider la demande.

le 11 octobre 2019

Bonjour,

Responsable SIGB de ma médiathèque, je voulais me lancer dans l'aventure Bibliostratus.

Seul problème, je suis sous Aloès, version 2.0.4780 et j'ai donc beaucoup de mal à avoir un export sur lequel travailler.

Est-ce que quelqu'un à déjà essayé avec ce SIGB ?

Je m'étais inscrite à l'atelier du mois de novembre, mais pour le moment je suis bloquée.

Merci d'avance pour vos idées,

Elodie

le 19 novembre 2019

Bonjour,

J'utilise le module rouge pour l'extraction de notices autorité à partir d'un fichier de numéros Ark.

Je voudrais utiliser le champ "zone à récupérer" : si je veux mentionner plusieurs zones quel séparateur doit être utilisé?

Merci pour votre aide,

Gina

le 16 janvier 2020

On 11/19/2019 at 3:01 PM, Gina said:

quel séparateur doit être utilisé?

Bonjour, le séparateur est le point-virgule ; sans espace

(désolé pour le temps de réponse !)

le 18 février 2020

Bonjour

Dans BST rouge, je ne peux plus récupérer de notices du SUDOC. J'obtiens ce message :

C:\Users\cbretech\Downloads\bibliostratus_latest_win64_py3.6\bibliostratus>main\main.exe
0. 114075700
https://www.sudoc.fr/114075700 .xml
HTTP Error 400: Bad Request
https://www.sudoc.fr/services/merged/114075700
HTTP Error 500: Erreur Interne de Servlet
Programme d'extraction de notices terminé

Je vous joins le fichier soumis à BST. Y aurait-il quelque changement côté ABES, qui expliquerait cela ? J'ai essayé avec plusieurs versions de BST, avec le même résultat. Auriez-vous une explication ?

J'utilise souvent BST rouge pour récupérer des notices SUDOC. J'ai ce problème depuis samedi 15 février.

Merci !

CatherineToBeDeleted.txt Bretéché, Médiathèques de Brest

le 18 février 2020

il y a 5 minutes, kateB a dit :

Ma PJ n'était pas correcte.

Bonjour

Dans BST rouge, je ne peux plus récupérer de notices du SUDOC. J'obtiens ce message :

C:\Users\cbretech\Downloads\bibliostratus_latest_win64_py3.6\bibliostratus>main\main.exe
0. 114075700
https://www.sudoc.fr/114075700 .xml
HTTP Error 400: Bad Request
https://www.sudoc.fr/services/merged/114075700
HTTP Error 500: Erreur Interne de Servlet
Programme d'extraction de notices terminé

Je vous joins le fichier soumis à BST. Y aurait-il quelque changement côté ABES, qui expliquerait cela ? J'ai essayé avec plusieurs versions de BST, avec le même résultat. Auriez-vous une explication ?

J'utilise souvent BST rouge pour récupérer des notices SUDOC. J'ai ce problème depuis samedi 15 février.

Merci !

CatherineToBeDeleted.txt Bretéché, Médiathèques de Brest

ToBeDeleted.txt

le 18 février 2020

il y a 6 minutes, kateB a dit :

C'est étrange, mon fichier texte est modifié à l'envoi du message, il ne reste que le premier caractère du PPN. Voici le contenu entre deux lignes. Il y a un saut de ligne après le PPN.

====================

IdPer
PPN114075700

====================

il y a 6 minutes, kateB a dit :

Bonjour

Dans BST rouge, je ne peux plus récupérer de notices du SUDOC. J'obtiens ce message :

C:\Users\cbretech\Downloads\bibliostratus_latest_win64_py3.6\bibliostratus>main\main.exe
0. 114075700
https://www.sudoc.fr/114075700 .xml
HTTP Error 400: Bad Request
https://www.sudoc.fr/services/merged/114075700
HTTP Error 500: Erreur Interne de Servlet
Programme d'extraction de notices terminé

Je vous joins le fichier soumis à BST. Y aurait-il quelque changement côté ABES, qui expliquerait cela ? J'ai essayé avec plusieurs versions de BST, avec le même résultat. Auriez-vous une explication ?

J'utilise souvent BST rouge pour récupérer des notices SUDOC. J'ai ce problème depuis samedi 15 février.

Merci !

CatherineToBeDeleted.txt Bretéché, Médiathèques de Brest

le 18 février 2020

Il y a 6 heures, kateB a dit :

https://www.sudoc.fr/114075700 .xml

C'est bizarre cet espace devant le .xml

Si on recompose l'URL complète, on obtient

https://www.sudoc.fr/114075700.xml

qui renvoie bien une page xml

Un problème d'argument dans la fonction ? Ou alors un espace de trop quelque part ?

Effectivement, il y a eu une modification sur cette partie du programme PPN. Probablement le 16 janvier.

@Lully vous répondra sans doute bientôt.

le 19 février 2020

@B. Majour Merci pour votre réponse. J'attends donc la réponse de @Lully. Je suppose que d'autres utilisateurs seront confrontés à ce problème.

le 19 février 2020

38 minutes ago, kateB said:

@B. Majour Merci pour votre réponse. J'attends donc la réponse de @Lully. Je suppose que d'autres utilisateurs seront confrontés à ce problème.

J'ai copié-collé la ligne du fichier indiqué (faute de pouvoir récupérer le fichier lui-même)

Et je constate que le PPN se termine, sur la ligne, par un espace après le dernier chiffre

Vraisemblablement, je n'ai pas dans le code ajouté des consignes pour nettoyer les espaces liminaires qui pourraient être présents (du coup, je vais le faire, mais ce sera pour la prochaine version qui n'est pas prête encore à être livrée)

le 19 février 2020

@Lully Bon sang mais c'est bien-sûr, il y a un espace après le dernier chiffre ! Je suis confuse de ne l'avoir point remarqué ! Merci pour votre analyse. BST rouge m'a bien permis d'importer la notice souhaitée, après suppression de l'espace. Bien cordialement, merci encore.

Catherine Bretéché

Médiathèques de Brest

le 19 mars 2020

Bonjour

je teste bibliostratus avec des données marcXML exportées de notre SIGB Aleph.

J'ai ce message d'erreur dans le terminal. J'ai vu un message plus haut qui évoquait le même problème mais je n'ai pas l'impression qu'une réponse ait été apportée. D'où vient le problème?

Cordialement

M. Saby

------------------------
Fichier en entrée : C:/Users/MATHIEU/Box Sync/_confinement/VillaArson/07_Retroconversion/1_creation_auto_possible/testimportbibliostratus.xml
Fichier temporaire UTF8-sans BOM inutile
[WinError 2] Le fichier spécifié est introuvable: 'temp_record.txt'

------------------------

Extraction terminée

Nombre total de notices traitées : 0
------------------------

testimportbibliostratus.zip

Modifié le 19 mars 2020 par Mathieu Saby
pièce jointe ajoutée

Connexion

Bibliostratus : mettre en correspondance ses notices avec celles de la BnF

Messages recommandés

clio1130

Top Posters In This Topic

Popular Days

Top Posters In This Topic

Popular Days

Popular Posts

B. Majour

Ferris

Renaud @ruralsmart

Posted Images

Lully

mhertig

Lully

Sbouis

Lully

Sbouis

B. Majour

Lully

Lully

Sbouis

Sbouis

Sbouis

Lully

CROZE Elodie

Gina

Lully

kateB

kateB

kateB

B. Majour

kateB

Lully

kateB

Mathieu Saby

Rejoindre la conversation

Naviguer

Activité