Jump to content
Renaud @ruralsmart

Bibliostratus : mettre en correspondance ses notices avec celles de la BnF

Recommended Posts

clio1130
Il y a 1 heure, Lully a dit :

Bonjour @clio1130

 

1.1. Serait-il possible d'avoir une ligne d'exemple concerné par ce problème (ce sera plus rapide pour que je puisse le reproduire et le corriger) ?

=> Oui, je vous joins le fichier test1_3notices.iso2709 et le résultat de la conversion test1_3notices-.txt. L'ouvrage qui pose problème est WordPress pour les nuls (un auteur a un tiret dans son nom).

1.2 J'en profite pour joindre test1_2notices.iso2709 que je n'arrive pas à convertir (message d'erreur : [WinError 2] Le fichier spécifié est introuvable: 'temp_record.txt')

 

2. Oui, Bibliostratus prend tous les mots des zones auteurs, et il les dédoublonne (je ne sais plus s'il les trie ensuite, il n'a pas de raison de le faire) : ça évite de chercher plusieurs fois le même mot en tant qu'auteur, ce qui n'apporte rien à la recherche. La colonne Auteur est utilisé pour chercher des mots en tant qu'auteur, leur ordre d'apparition n'a pas d'importance pour la pertinence des résultats. Ce module Marc > tableaux n'est (pour l'instant ?) pas un outil d'extraction de métadonnées bibliographiques pour faire avoir des références bibliographiques à peu près propres.

=> Deux exemples avec le fichier test1_3notices.iso2709 et le résultat de la conversion test1_3notices-.txt (regardez bien les noms des auteurs pour les 2 derniers ouvrages).

Merci !

test1_2notices.iso2709 test1_3notices.iso2709 test1_3notices-.txt

Share this post


Link to post
Share on other sites
Lully
On 6/17/2019 at 5:52 PM, mhertig said:

Bonjour,

Je teste Bibliostratus sur nos données d'autorité, en MARC21. J'ai testé la conversion du xml vers un fichier tsv, mais seul l'identifiant système est reconnu (champs 001 de la notice MARC21). Il s'agit peut-être d'un problème de mapping. Serait-il possible de consulter le tableau de mapping, pour vérifier ?

Meilleures salutations,

Michael Hertig, Lausanne (Suisse)

Bonjour,

serait-il possible d'avoir un échantillon de notices en Marc21 ?

 

Sinon, voici la fonction qui identifie les zones à extraire pour chaque variable (titre, issn, etc.) quand il s'agit de Marc21 :

Petite explication : pour le keyTitle (utilisé ensuite uniquement dans le cadre des périodiques), le script récupère la 222$a, ou à défaut la 200$a+200$e.

De même, pour les auteurs, il concatène les zones 100$a$m, 110$a$m, 700$a$m et 710$a$m. Si aucune n'est renseignée, il récupère la 245$f

def metas_from_marc21(record):
    title = record2title(
        record2meta(record, ["245$a", "245$e"])
    )
    keyTitle = record2title(
        record2meta(record, ["222$a"], ["200$a", "200$e"])
    )
    global_title = record2title(
        record2meta(record, ["490$a"], ["245$a", "245$e"])
    )
    part_title = ""
    if (global_title == part_title):
        part_title = ""
    authors = record2authors(record2meta(record, [
        "100$a",
        "100$m",
        "110$a",
        "110$m",
        "700$a",
        "700$m",
        "710$a",
        "710$m",
    ],
        ["245$f"])
    )
    authors2keywords = aut2keywords(authors)
    date = record2date(record2meta(
        record, ["008"]), record2meta(record, ["260$c"]),
        "marc21")
    numeroTome = record2numeroTome(record2meta(record, ["245$n"], ["490$v"]))
    publisher = record2publisher(record2meta(record, ["260$b"]))
    pubPlace = record2pubPlace(record2meta(record, ["260$a"]))
    scale = record2scale(record2meta(record, ["034$b"], ["255$a"]))
    ark = record2ark(record2meta(record, ["033$a"]))
    frbnf = record2frbnf(record2meta(record, ["035$a"], ["801$h"]))
    isbn = record2isbn(record2meta(record, ["020$a"]))
    issn = record2isbn(record2meta(record, ["022$a"]))
    ean = record2ean(record2meta(record, ["024$a"]))
    id_commercial_aud = record2id_commercial_aud(
        record2meta(record, ["073$a"]))
    return (
            title, keyTitle, global_title, part_title,
            authors, authors2keywords, date, numeroTome,
            publisher, pubPlace, scale,
            ark, frbnf, isbn, issn, ean, 
            id_commercial_aud
            )

 

Share this post


Link to post
Share on other sites
mhertig
il y a 16 minutes, Lully a dit :

Bonjour,

serait-il possible d'avoir un échantillon de notices en Marc21 ?

 

 

Bonjour,

Merci de votre réponse. Je vais examiner les informations données.

Pour l'envoi de l'échantillon, je ne peux pas le poster comme ça sur le web. Est-ce que je peux vous l'envoyer par courriel à votre adresse svp ?

Share this post


Link to post
Share on other sites
Lully
5 hours ago, mhertig said:

Pour l'envoi de l'échantillon, je ne peux pas le poster comme ça sur le web. Est-ce que je peux vous l'envoyer par courriel à votre adresse svp ?

Pas de problème : etienne[point]cavalie[arobase]bnf[point]fr

Share this post


Link to post
Share on other sites
Sbouis

Bonjour,

nous avons fait un export de notices d'autorités Unimarc dans un fichier au format ISO2709 que nous avons transformé avec bibliostratus en utilisant le module bleu. Avec le fichier tabulé, nous avons d'abord lancé le processus d'alignement en choisissant l'option "Aligner de préférence avec la BNF". Tout s'est passé correctement et nous avons obtenu un fichier avec des identifiants ark.

Nous avons repris le même fichier tabulé et avons lancé l'alignement en choisissant "Aligner de préférence avec Idref" en laissant coché "relancer sur isni.org" . A ce moment-là, nous avons vu dans la console de traitement plusieurs messages d'erreurs de type 

https://www.idref.fr/164897976.xml

HTTP Error 404: Introuvable

https://www.idref.fr/164898042.xml

HTTP Error 404: Introuvable

 

Il s'affichait également de grandes listes de PPN. Le traitement a été tellement long que nous avons arrêté le processus.

 

Voilà l'entête du fichier pondu par bibliostratus :

N° Notice AUT    FRBNF    ARK    ISNI    Nom    Prénom    Date de début    Date de fin

 

Merci d'avance pour le retour.

 

16H25-PERS-autorité-personne.txt

Share this post


Link to post
Share on other sites
Lully

@Sbouis : bonjour, manifestment Bibliostratus récupère à un endroit du programme des PPN bibliographique et les traite comme s'il s'agissait de PPN d'autorités

Mais je n'arrive pas à récupérer le fichier en PJ (16H25-PERS-autorité-personne.txt) : message d'erreur systématique. Pouvez-vous essayez de le recharger sur le forum ?

 

Share this post


Link to post
Share on other sites
B. Majour
Posted (edited)

Hum, toujours en erreur.

 

Envoyez-le directement en MP à Lully, ce sera plus simple. (pour le MP, il suffit de passer la souris sur l'icône de Ratatouille et de sélectionner MP)

 

Après plusieurs essais, en échec, j'ai réussi à récupérer ceci :

 

16H25-PERS-autorité-personneA.txt

Edited by B. Majour

Share this post


Link to post
Share on other sites
Lully

@sbouis Je n'arrive pas à reproduire l'erreur (cf. copie d'écran). Quelle version de Bibliostratus utilisez-vous ?

16H25.thumb.png.f2ad56a97b58e461e5cc528b6eb0139d.png

Share this post


Link to post
Share on other sites
Sbouis
il y a 9 minutes, Sbouis a dit :

J'utilise une version 1.26

Je re-teste avec la nouvelle version.

Par contre, quand je lance bibliostratus à partir de l'extraction du zip bibliostratus_1.28RC_win64_py3.6.zip, le numéro de version affiché est 1.27. Il ne faut peut-être pas s'y fier ?

 

image.thumb.png.8d4ca2571c5c0d750b2d80963c3ce655.png

image.png

Share this post


Link to post
Share on other sites
Sbouis
il y a 5 minutes, Sbouis a dit :

Ca marche :)

Par contre, je ne suis pas sûre de comprendre les résultats en sortie. Je suis surprise de trouver des PPN je m'attendais plutôt à trouver des URI idref de la forme https://www.idref.fr/23832432X  

au lieu de PPN23832432X

Si c'est possible, je pense que ce serait plus intéressant comme résultat.

Pour l'isni, c'est bien

 

il y a 5 minutes, Sbouis a dit :

 

 

 

 

Share this post


Link to post
Share on other sites
Lully

@Sbouis OK, je prends note (en fait, c'est justement pour enregistrer les demandes d'évolutions que j'utilise l'espace issues sur Github, et  non pour répondre aux questions sur des difficultés rencontrées. Donc j'en ai fait un ticket https://github.com/Transition-bibliographique/bibliostratus/issues/60), qui fera l'objet d'une discussion par le groupe Bibliostratus (sous-groupe de Systèmes & Données) pour valider la demande.

Share this post


Link to post
Share on other sites
CROZE Elodie

Bonjour,

 

Responsable SIGB de ma médiathèque, je voulais me lancer dans l'aventure Bibliostratus.

Seul problème, je suis sous Aloès, version 2.0.4780 et j'ai donc beaucoup de mal à avoir un export sur lequel travailler.

Est-ce que quelqu'un à déjà essayé avec ce SIGB ?

 

Je m'étais inscrite à l'atelier du mois de novembre, mais pour le moment je suis bloquée.

 

Merci d'avance pour vos idées,

 

Elodie

Share this post


Link to post
Share on other sites
Gina

Bonjour,

J'utilise le module rouge pour l'extraction de notices autorité à partir d'un fichier de numéros Ark.

Je voudrais utiliser le champ "zone à récupérer" : si je veux mentionner plusieurs zones quel séparateur doit être utilisé?

Merci pour votre aide,

Gina

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.


×
×
  • Create New...