Aller au contenu

Bibliostratus : mettre en correspondance ses notices avec celles de la BnF


Renaud @ruralsmart

Messages recommandés

Il y a 1 heure, Lully a dit :

Bonjour @clio1130

 

1.1. Serait-il possible d'avoir une ligne d'exemple concerné par ce problème (ce sera plus rapide pour que je puisse le reproduire et le corriger) ?

=> Oui, je vous joins le fichier test1_3notices.iso2709 et le résultat de la conversion test1_3notices-.txt. L'ouvrage qui pose problème est WordPress pour les nuls (un auteur a un tiret dans son nom).

1.2 J'en profite pour joindre test1_2notices.iso2709 que je n'arrive pas à convertir (message d'erreur : [WinError 2] Le fichier spécifié est introuvable: 'temp_record.txt')

 

2. Oui, Bibliostratus prend tous les mots des zones auteurs, et il les dédoublonne (je ne sais plus s'il les trie ensuite, il n'a pas de raison de le faire) : ça évite de chercher plusieurs fois le même mot en tant qu'auteur, ce qui n'apporte rien à la recherche. La colonne Auteur est utilisé pour chercher des mots en tant qu'auteur, leur ordre d'apparition n'a pas d'importance pour la pertinence des résultats. Ce module Marc > tableaux n'est (pour l'instant ?) pas un outil d'extraction de métadonnées bibliographiques pour faire avoir des références bibliographiques à peu près propres.

=> Deux exemples avec le fichier test1_3notices.iso2709 et le résultat de la conversion test1_3notices-.txt (regardez bien les noms des auteurs pour les 2 derniers ouvrages).

Merci !

test1_2notices.iso2709 test1_3notices.iso2709 test1_3notices-.txt

Lien vers le commentaire
Partager sur d’autres sites

  • 2 weeks later...
On 6/17/2019 at 5:52 PM, mhertig said:

Bonjour,

Je teste Bibliostratus sur nos données d'autorité, en MARC21. J'ai testé la conversion du xml vers un fichier tsv, mais seul l'identifiant système est reconnu (champs 001 de la notice MARC21). Il s'agit peut-être d'un problème de mapping. Serait-il possible de consulter le tableau de mapping, pour vérifier ?

Meilleures salutations,

Michael Hertig, Lausanne (Suisse)

Bonjour,

serait-il possible d'avoir un échantillon de notices en Marc21 ?

 

Sinon, voici la fonction qui identifie les zones à extraire pour chaque variable (titre, issn, etc.) quand il s'agit de Marc21 :

Petite explication : pour le keyTitle (utilisé ensuite uniquement dans le cadre des périodiques), le script récupère la 222$a, ou à défaut la 200$a+200$e.

De même, pour les auteurs, il concatène les zones 100$a$m, 110$a$m, 700$a$m et 710$a$m. Si aucune n'est renseignée, il récupère la 245$f

def metas_from_marc21(record):
    title = record2title(
        record2meta(record, ["245$a", "245$e"])
    )
    keyTitle = record2title(
        record2meta(record, ["222$a"], ["200$a", "200$e"])
    )
    global_title = record2title(
        record2meta(record, ["490$a"], ["245$a", "245$e"])
    )
    part_title = ""
    if (global_title == part_title):
        part_title = ""
    authors = record2authors(record2meta(record, [
        "100$a",
        "100$m",
        "110$a",
        "110$m",
        "700$a",
        "700$m",
        "710$a",
        "710$m",
    ],
        ["245$f"])
    )
    authors2keywords = aut2keywords(authors)
    date = record2date(record2meta(
        record, ["008"]), record2meta(record, ["260$c"]),
        "marc21")
    numeroTome = record2numeroTome(record2meta(record, ["245$n"], ["490$v"]))
    publisher = record2publisher(record2meta(record, ["260$b"]))
    pubPlace = record2pubPlace(record2meta(record, ["260$a"]))
    scale = record2scale(record2meta(record, ["034$b"], ["255$a"]))
    ark = record2ark(record2meta(record, ["033$a"]))
    frbnf = record2frbnf(record2meta(record, ["035$a"], ["801$h"]))
    isbn = record2isbn(record2meta(record, ["020$a"]))
    issn = record2isbn(record2meta(record, ["022$a"]))
    ean = record2ean(record2meta(record, ["024$a"]))
    id_commercial_aud = record2id_commercial_aud(
        record2meta(record, ["073$a"]))
    return (
            title, keyTitle, global_title, part_title,
            authors, authors2keywords, date, numeroTome,
            publisher, pubPlace, scale,
            ark, frbnf, isbn, issn, ean, 
            id_commercial_aud
            )

 

Lien vers le commentaire
Partager sur d’autres sites

il y a 16 minutes, Lully a dit :

Bonjour,

serait-il possible d'avoir un échantillon de notices en Marc21 ?

 

 

Bonjour,

Merci de votre réponse. Je vais examiner les informations données.

Pour l'envoi de l'échantillon, je ne peux pas le poster comme ça sur le web. Est-ce que je peux vous l'envoyer par courriel à votre adresse svp ?

Lien vers le commentaire
Partager sur d’autres sites

5 hours ago, mhertig said:

Pour l'envoi de l'échantillon, je ne peux pas le poster comme ça sur le web. Est-ce que je peux vous l'envoyer par courriel à votre adresse svp ?

Pas de problème : etienne[point]cavalie[arobase]bnf[point]fr

Lien vers le commentaire
Partager sur d’autres sites

  • 2 months later...

Bonjour,

nous avons fait un export de notices d'autorités Unimarc dans un fichier au format ISO2709 que nous avons transformé avec bibliostratus en utilisant le module bleu. Avec le fichier tabulé, nous avons d'abord lancé le processus d'alignement en choisissant l'option "Aligner de préférence avec la BNF". Tout s'est passé correctement et nous avons obtenu un fichier avec des identifiants ark.

Nous avons repris le même fichier tabulé et avons lancé l'alignement en choisissant "Aligner de préférence avec Idref" en laissant coché "relancer sur isni.org" . A ce moment-là, nous avons vu dans la console de traitement plusieurs messages d'erreurs de type 

https://www.idref.fr/164897976.xml

HTTP Error 404: Introuvable

https://www.idref.fr/164898042.xml

HTTP Error 404: Introuvable

 

Il s'affichait également de grandes listes de PPN. Le traitement a été tellement long que nous avons arrêté le processus.

 

Voilà l'entête du fichier pondu par bibliostratus :

N° Notice AUT    FRBNF    ARK    ISNI    Nom    Prénom    Date de début    Date de fin

 

Merci d'avance pour le retour.

 

16H25-PERS-autorité-personne.txt

Lien vers le commentaire
Partager sur d’autres sites

@Sbouis : bonjour, manifestment Bibliostratus récupère à un endroit du programme des PPN bibliographique et les traite comme s'il s'agissait de PPN d'autorités

Mais je n'arrive pas à récupérer le fichier en PJ (16H25-PERS-autorité-personne.txt) : message d'erreur systématique. Pouvez-vous essayez de le recharger sur le forum ?

 

Lien vers le commentaire
Partager sur d’autres sites

Hum, toujours en erreur.

 

Envoyez-le directement en MP à Lully, ce sera plus simple. (pour le MP, il suffit de passer la souris sur l'icône de Ratatouille et de sélectionner MP)

 

Après plusieurs essais, en échec, j'ai réussi à récupérer ceci :

 

16H25-PERS-autorité-personneA.txt

Modifié par B. Majour
Lien vers le commentaire
Partager sur d’autres sites

il y a 9 minutes, Sbouis a dit :

J'utilise une version 1.26

Je re-teste avec la nouvelle version.

Par contre, quand je lance bibliostratus à partir de l'extraction du zip bibliostratus_1.28RC_win64_py3.6.zip, le numéro de version affiché est 1.27. Il ne faut peut-être pas s'y fier ?

 

image.thumb.png.8d4ca2571c5c0d750b2d80963c3ce655.png

image.png

Lien vers le commentaire
Partager sur d’autres sites

il y a 5 minutes, Sbouis a dit :

Ca marche :)

Par contre, je ne suis pas sûre de comprendre les résultats en sortie. Je suis surprise de trouver des PPN je m'attendais plutôt à trouver des URI idref de la forme https://www.idref.fr/23832432X  

au lieu de PPN23832432X

Si c'est possible, je pense que ce serait plus intéressant comme résultat.

Pour l'isni, c'est bien

 

il y a 5 minutes, Sbouis a dit :

 

 

 

 

Lien vers le commentaire
Partager sur d’autres sites

@Sbouis OK, je prends note (en fait, c'est justement pour enregistrer les demandes d'évolutions que j'utilise l'espace issues sur Github, et  non pour répondre aux questions sur des difficultés rencontrées. Donc j'en ai fait un ticket https://github.com/Transition-bibliographique/bibliostratus/issues/60), qui fera l'objet d'une discussion par le groupe Bibliostratus (sous-groupe de Systèmes & Données) pour valider la demande.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

 

Responsable SIGB de ma médiathèque, je voulais me lancer dans l'aventure Bibliostratus.

Seul problème, je suis sous Aloès, version 2.0.4780 et j'ai donc beaucoup de mal à avoir un export sur lequel travailler.

Est-ce que quelqu'un à déjà essayé avec ce SIGB ?

 

Je m'étais inscrite à l'atelier du mois de novembre, mais pour le moment je suis bloquée.

 

Merci d'avance pour vos idées,

 

Elodie

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...

Bonjour,

J'utilise le module rouge pour l'extraction de notices autorité à partir d'un fichier de numéros Ark.

Je voudrais utiliser le champ "zone à récupérer" : si je veux mentionner plusieurs zones quel séparateur doit être utilisé?

Merci pour votre aide,

Gina

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...
On 11/19/2019 at 3:01 PM, Gina said:

quel séparateur doit être utilisé?

Bonjour, le séparateur est le point-virgule ; sans espace

(désolé pour le temps de réponse !)

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...

Bonjour

 

Dans BST rouge, je ne peux plus récupérer de notices du SUDOC. J'obtiens ce message :

 

C:\Users\cbretech\Downloads\bibliostratus_latest_win64_py3.6\bibliostratus>main\main.exe
0. 114075700
https://www.sudoc.fr/114075700 .xml
HTTP Error 400: Bad Request
https://www.sudoc.fr/services/merged/114075700
HTTP Error 500: Erreur Interne de Servlet
Programme d'extraction de notices terminé

 

Je vous joins le fichier soumis à BST. Y aurait-il quelque changement côté ABES, qui expliquerait cela ? J'ai essayé avec plusieurs versions de BST, avec le même résultat. Auriez-vous une explication ?

 

J'utilise souvent BST rouge pour récupérer des notices SUDOC. J'ai ce problème depuis samedi 15 février.

 

Merci !

 

CatherineToBeDeleted.txt Bretéché, Médiathèques de Brest

Lien vers le commentaire
Partager sur d’autres sites

il y a 5 minutes, kateB a dit :

Ma PJ n'était pas correcte.

 

Bonjour

 

Dans BST rouge, je ne peux plus récupérer de notices du SUDOC. J'obtiens ce message :

 

C:\Users\cbretech\Downloads\bibliostratus_latest_win64_py3.6\bibliostratus>main\main.exe
0. 114075700
https://www.sudoc.fr/114075700 .xml
HTTP Error 400: Bad Request
https://www.sudoc.fr/services/merged/114075700
HTTP Error 500: Erreur Interne de Servlet
Programme d'extraction de notices terminé

 

Je vous joins le fichier soumis à BST. Y aurait-il quelque changement côté ABES, qui expliquerait cela ? J'ai essayé avec plusieurs versions de BST, avec le même résultat. Auriez-vous une explication ?

 

J'utilise souvent BST rouge pour récupérer des notices SUDOC. J'ai ce problème depuis samedi 15 février.

 

Merci !

 

CatherineToBeDeleted.txt Bretéché, Médiathèques de Brest

 

ToBeDeleted.txt

Lien vers le commentaire
Partager sur d’autres sites

il y a 6 minutes, kateB a dit :

C'est étrange, mon fichier texte est modifié à l'envoi du message, il ne reste que le premier caractère du PPN. Voici le contenu entre deux lignes. Il y a un saut de ligne après le PPN.

 

====================

IdPer
PPN114075700

 

====================

 

il y a 6 minutes, kateB a dit :

 

Bonjour

 

Dans BST rouge, je ne peux plus récupérer de notices du SUDOC. J'obtiens ce message :

 

C:\Users\cbretech\Downloads\bibliostratus_latest_win64_py3.6\bibliostratus>main\main.exe
0. 114075700
https://www.sudoc.fr/114075700 .xml
HTTP Error 400: Bad Request
https://www.sudoc.fr/services/merged/114075700
HTTP Error 500: Erreur Interne de Servlet
Programme d'extraction de notices terminé

 

Je vous joins le fichier soumis à BST. Y aurait-il quelque changement côté ABES, qui expliquerait cela ? J'ai essayé avec plusieurs versions de BST, avec le même résultat. Auriez-vous une explication ?

 

J'utilise souvent BST rouge pour récupérer des notices SUDOC. J'ai ce problème depuis samedi 15 février.

 

Merci !

 

CatherineToBeDeleted.txt Bretéché, Médiathèques de Brest

 

Lien vers le commentaire
Partager sur d’autres sites

Il y a 6 heures, kateB a dit :

 

C'est bizarre cet espace devant le .xml

 

Si on recompose l'URL complète, on obtient

https://www.sudoc.fr/114075700.xml

qui renvoie bien une page xml

 

Un problème d'argument dans la fonction ? Ou alors un espace de trop quelque part ?

 

Effectivement, il y a eu une modification sur cette partie du programme PPN. Probablement le 16 janvier.

 

@Lully vous répondra sans doute bientôt.

 

Lien vers le commentaire
Partager sur d’autres sites

38 minutes ago, kateB said:

@B. Majour Merci pour votre réponse. J'attends donc la réponse de @Lully. Je suppose que d'autres utilisateurs seront confrontés à ce problème.

  

J'ai copié-collé la ligne du fichier indiqué (faute de pouvoir récupérer le fichier lui-même)

Et je constate que le PPN se termine, sur la ligne, par un espace après le dernier chiffre

Vraisemblablement, je n'ai pas dans le code ajouté des consignes pour nettoyer les espaces liminaires qui pourraient être présents (du coup, je vais le faire, mais ce sera pour la prochaine version qui n'est pas prête encore à être livrée)

 

Lien vers le commentaire
Partager sur d’autres sites

@Lully Bon sang mais c'est bien-sûr, il y a un espace après le dernier chiffre ! Je suis confuse de ne l'avoir point remarqué ! Merci pour votre analyse. BST rouge m'a bien permis d'importer la notice souhaitée, après suppression de l'espace. Bien cordialement, merci encore.

 

Catherine Bretéché

Médiathèques de Brest

 

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...

Bonjour

je teste bibliostratus avec des données marcXML exportées de notre SIGB Aleph.

 

J'ai ce message d'erreur dans le terminal. J'ai vu un message plus haut qui évoquait le même problème mais je n'ai pas l'impression qu'une réponse ait été apportée. D'où vient le problème?

 

Cordialement

M. Saby

 

 

------------------------
Fichier en entrée :  C:/Users/MATHIEU/Box Sync/_confinement/VillaArson/07_Retroconversion/1_creation_auto_possible/testimportbibliostratus.xml
Fichier temporaire UTF8-sans BOM inutile
[WinError 2] Le fichier spécifié est introuvable: 'temp_record.txt'


------------------------

Extraction terminée

Nombre total de notices traitées :  0
------------------------

testimportbibliostratus.zip

Modifié par Mathieu Saby
pièce jointe ajoutée
Lien vers le commentaire
Partager sur d’autres sites

Rejoindre la conversation

Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.

Invité
Répondre à ce sujet…

×   Collé en tant que texte enrichi.   Restaurer la mise en forme

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.

×
×
  • Créer...