Aller au contenu
Renaud @ruralsmart

Bibliostratus : mettre en correspondance ses notices avec celles de la BnF

Messages recommandés

Lully
2 hours ago, DamienVX said:

Bonjour,

Une collègue m'a demandé de tester bibliostratus :

- extraction de quelques notices biblio puis conversion avec marcedit -> ok

- conversion fichier unimarc -> ok

- aligner sers données BIb -> échec

 

Nb ARK trouvés    Nb notices concernées
1    5
3    2
2    1


Problème d'accès aux API Abes


Problème d'accès aux API BnF

 

Même problème avec le fichier d'exemple sur github.

 

Je suis sur un réseau sans proxy.

 

Bonne journée

 

Bonjour @DamienVX, combien y avait-il de notices dans le fichier initial ?

Et comment avez-vous identifié que l'alignement était un échec ?

Le processus d'alignement génère 2 fichiers distincts :

  • un qui s'appelle {prefixe}-rapport_stats (dont vous avez copié-collé le contenu ci-dessus)
  • et un autre qui s'appelle {prefixe}-resultats (dont vous ne dites rien)

Ce dernier fichier était-il vide ? ou carrément absent ?

 

Partager ce message


Lien à poster
Partager sur d’autres sites
DamienVX
il y a une heure, Lully a dit :

 

Bonjour @DamienVX, combien y avait-il de notices dans le fichier initial ?

Et comment avez-vous identifié que l'alignement était un échec ?

Le processus d'alignement génère 2 fichiers distincts :

  • un qui s'appelle {prefixe}-rapport_stats (dont vous avez copié-collé le contenu ci-dessus)
  • et un autre qui s'appelle {prefixe}-resultats (dont vous ne dites rien)

Ce dernier fichier était-il vide ? ou carrément absent ?

 

Avec mon panier de 15 notices, extrait puis converti en unimarc, j'obtient les fichiers en PJ.

 

Dans le 1er fichier, le message :

Problème d'accès aux API Abes

Problème d'accès aux API BnF

me laissait penser que la connexion ne s'établissait pas. 

Que signifie ce message ?

 

J'ai bien des résultats dans le 2ème fichier.

Sous votre contrôle, tout serait donc Ok ?

 

Merci

-rapport_stats_noticesbib2ark.txt

-resultats_noticesbib2arkBnF.txt

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully

@Damien

On 6/15/2018 at 2:35 PM, DamienVX said:

Avec mon panier de 15 notices, extrait puis converti en unimarc, j'obtient les fichiers en PJ.

 

Dans le 1er fichier, le message :

Problème d'accès aux API Abes

Problème d'accès aux API BnF

me laissait penser que la connexion ne s'établissait pas. 

Que signifie ce message ?

 

 

 oui, l'alignement s'est bien passé

En fait sous ces deux rubriques seraient listées les résultats en erreur à des contrôles systématiques sur l'accès aux API (toutes les 100 notices). La liste est vide, donc tout va bien. Mais je n'avais pas vu que si la liste était vide, on comprenait que c'était un message d'alerte. Je corrigerai ça (ticket à traiter)
Ce contrôle systématique toutes les 100 notices, permet d'être alerté, si on envoie un fichier de 10.000 lignes, par exemple, que l'API était inaccessible entre la 7000e et la 8500e notice, et que s'il n'y a pas d'alignement dans le fichier sur cet ensemble de lignes, ce n'est pas qu'il n'existe pas de notice à la BnF ou dans le Sudoc.

Partager ce message


Lien à poster
Partager sur d’autres sites
DamienVX
Le 17/06/2018 à 19:19, Lully a dit :

@Damien

 

 oui, l'alignement s'est bien passé

En fait sous ces deux rubriques seraient listées les résultats en erreur à des contrôles systématiques sur l'accès aux API (toutes les 100 notices). La liste est vide, donc tout va bien. Mais je n'avais pas vu que si la liste était vide, on comprenait que c'était un message d'alerte. Je corrigerai ça (ticket à traiter)
Ce contrôle systématique toutes les 100 notices, permet d'être alerté, si on envoie un fichier de 10.000 lignes, par exemple, que l'API était inaccessible entre la 7000e et la 8500e notice, et que s'il n'y a pas d'alignement dans le fichier sur cet ensemble de lignes, ce n'est pas qu'il n'existe pas de notice à la BnF ou dans le Sudoc.

Merci pour ces réponses.

 

Pour les développements à venir, une suggestion peut être : ajouter la possibilité de renseigner les paramètres proxy dans le programme (hôte, port, identifiant, mot de passe).

En général le sigb est sur un réseau avec proxy. 

 

Bonne journée 

Partager ce message


Lien à poster
Partager sur d’autres sites
Hel

Bonjour,

je vous fais un petit compte rendu des tests côté Bibliothèque départementale des Côtes d'Armor :

impossible de produire un tableau depuis un fichier d'export de notices iso2709 du SIGB Aloes 2.1.5. Même avec les procédures de conversion MarcEdit et Notepad

 

Du coup j'ai testé sur PMB (joie, bonheur :-)) :

  • import de notices BCA dans PMB
  • export depuis PMB de 300 notices en marc
  • converties ensuite en xml grâce à MarcEdit
  • converties ensuite en utf8 grace à Notepad++ (j'ai testé "encoder" qui n'a pas fonctionné, puis "convertir" qui m'a permis ensuite d'obtenir un fichier au bon format)

Puis alignées sur les notices BNF : 37 alignements trouvés !

 

J'ai testé tout ça sur un portable hors réseau. Je ne suis pas du tout pro des formats d'échange.

Pour Aloes, si d'autres ont des tuyaux je suis preneuse..

Je joins le fichier résultat si vous avez le temps de regarder si c'est bien le résultat attendu.

Merci d'avance !

PNBTAB-resultats_noticesbib2arkBnF.txt

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
On 8/14/2018 at 5:34 PM, Hel said:

Puis alignées sur les notices BNF : 37 alignements trouvés !

 

@Hel Bonjour, je viens de regarder le fichier déposé.

Il y a effectivement quelques alignements, mais c'est seulement 10% du corpus si je comprends bien.

Un problème essentiel (et récurrent) vient de l'encodage : comme on le voit dans le fichier http://www.agorabib.fr/applications/core/interface/file/attachment.php?id=372

les caractères accentués passent mal : "©a" au lieu de "â", "ℓe" au lieu de "è"

Donc s'il est impossible de faire un extraction UTF-8 propre, ça veut dire qu'une fois les tableaux obtenus (suite à la conversion de l'iso2709 en tableaux), il faut faire une succession de chercher-remplacer :

©a --> â

©e --> ê

©i --> î

©o --> ô

©u --> û

ℓa --> à

ℓe --> è

℗e --> é

et les caractères qui correspondent aux ä, ë, ï, ö, ü, ç (et ce sera déjà pas mal)

 

avant de lancer l'alignement

 

Tenez nous au courant !

Partager ce message


Lien à poster
Partager sur d’autres sites
Bibliosurf

Je cherche des expériences d'utilisation de Bibliostratus pour fusionner des notices.

Je suis particulièrement preneur de retours d'expériences qui concerneraient des collectivités qui ont fusionné leurs catalogues préalablement gérés sur des SIGB différents.

D'avance merci.

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
On 9/5/2018 at 7:30 PM, Bibliosurf said:

Je cherche des expériences d'utilisation de Bibliostratus pour fusionner des notices.

Je suis particulièrement preneur de retours d'expériences qui concerneraient des collectivités qui ont fusionné leurs catalogues préalablement gérés sur des SIGB différents.

D'avance merci.

 

Je crois que le réseau des médiathèques de Montpellier a fait ça, mais le responsable de la migration est parti à Athènes au 1er septembre...

Partager ce message


Lien à poster
Partager sur d’autres sites
irassant

à Cagnes nous ne l'utilisons que pour repérer les erreurs ... nous n'avons pas demander à Archimed de récupérer les données , ceci dit nous passons pour ce faire par notre vendangeur

Partager ce message


Lien à poster
Partager sur d’autres sites
FabM

Bonjour,

j'ai fait un essai d'alignement un peu conséquent (un peu plus de 3800 notices) hier avec Bibliostratus et j'ai rencontré le message suivant :

image.png.40d450feafd1b428ec016728a29105ca.png

J'ai lancé le programme hier, il n'est toujours pas fini et je n'ai rien récupéré en terme de fichiers (rapport stat & résultats).

Effectivement, il y a une petite erreur dans mon tableau de départ, mais il me semblait que le programme "sautait la ligne" dans ce cas.

Est-ce que c'est lié à l'encodage du fichier ??

Merci d'avance pour vos éclairages.

Fabienne (bib de Caen)

Partager ce message


Lien à poster
Partager sur d’autres sites
Hel
Citation

faire une succession de chercher-remplacer :

©a --> â

©e --> ê

©i --> î

©o --> ô

©u --> û

ℓa --> à

ℓe --> è

℗e --> é

....Tenez nous au courant !

Bonjour,

merci pour cette suggestion. Désolée de répondre si lentement.

Après un second test (500 notices) : (toujours en passant par le logiciel PMB depuis Aloes)

sans modification des caractères accentués : 38 alignements

avec modification des caractères accentués : 45 alignements

 

 

Mon fichier d'export source (.txt) est reconnu encodé en UTF8 dans Notepad++, mais je vois que les accents ne s'affichent pas correctement pourtant.

Voilà où nous en sommes, bloqués par cette question d'encodage et de format d'export (annoncé ISO2709 reco995 dans Aloes). Je vais continuer à suivre les échanges sur Agora.. bonne continuation à tou.t.e.s

 

 

 

image.png

Modifié par Hel

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
On 9/19/2018 at 4:33 PM, FabM said:

Bonjour,

j'ai fait un essai d'alignement un peu conséquent (un peu plus de 3800 notices) hier avec Bibliostratus et j'ai rencontré le message suivant :

image.png.40d450feafd1b428ec016728a29105ca.png

J'ai lancé le programme hier, il n'est toujours pas fini et je n'ai rien récupéré en terme de fichiers (rapport stat & résultats).

Effectivement, il y a une petite erreur dans mon tableau de départ, mais il me semblait que le programme "sautait la ligne" dans ce cas.

Est-ce que c'est lié à l'encodage du fichier ??

Merci d'avance pour vos éclairages.

Fabienne (bib de Caen)

 

Bonjour

quelle version utilisez-vous ? La dernière version disponible (compilée) est la v.22, et elle ne devrait pas produire cette erreur (parce que la fonction incriminée, check_digit_10, qui plante, n'existe plus dans la version 22)

Si vous utilisez une version antérieure, et que dans le menu principal vous ne voyez pas de bouton vous proposant de télécharger la dernière version, c'est qu'il y a un problème (et je veux bien que vous me le confirmiez)

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
4 hours ago, Hel said:

Bonjour,

merci pour cette suggestion. Désolée de répondre si lentement.

Après un second test (500 notices) : (toujours en passant par le logiciel PMB depuis Aloes)

sans modification des caractères accentués : 38 alignements

avec modification des caractères accentués : 45 alignements

 

 

Mon fichier d'export source (.txt) est reconnu encodé en UTF8 dans Notepad++, mais je vois que les accents ne s'affichent pas correctement pourtant.

Voilà où nous en sommes, bloqués par cette question d'encodage et de format d'export (annoncé ISO2709 reco995 dans Aloes). Je vais continuer à suivre les échanges sur Agora.. bonne continuation à tou.t.e.s

 

 

 

image.png

 

Bonsoir

tout d'abord, même question qu'à notre collègue de Caen : quelle version utilisez vous ? Je n'ai pas l'impression que ce plantage puisse se produire avec la version 22

Sinon, "iso2709 reco995" n'est pas une précision sur l'encodage. reco995 précise un truc comme "chaque exemplaire est stocké dans une zone 995, avec le code-barre en $a, le numéro d'inventaire en $b, etc.

 

Et pourriez-vous m'envoyer (dans le fil ci-dessous, en message privé sur Agorabib ou par mail si le fichier est trop gros) le tableau complet en entrée du module blanc (çàd avant alignements), pour que je voie s'il y a une manière simple de le reformater afin que les alignements se fassent correctement

Précision : le fichier n'est pas reconnu comme encodé en UTF-8 par Notepad++, mais Notepad++ l'affiche comme s'il était encodé en UTF-8. C'est notre capacité à lire le texte (et non à simplement le décoder) qui nous fait constater que non, ce n'est pas de l'UTF-8 puisque les caractères sont mal affichés). Le problème, c'est que Bibliostratus produit bien de l'UTF-8, donc il encode en UTF-8 les caractères initialement aberrants, qui étaient jusque-là encodés dans un autre encodage.

 

Partager ce message


Lien à poster
Partager sur d’autres sites
Hel

Bonsoir,

toutes mes excuses en effet, ce n'était pas la version 1.22 mais 1.20. Là ça marche  :D (489 Ark trouvés /500 notices)

Il ne me reste plus qu'à essayer sans le passage par PMB...

Encore merci pour le coup de main, et le logiciel !

Partager ce message


Lien à poster
Partager sur d’autres sites
Emilie

Bonjour,

 

J'utilise la version 1.22 et je rencontre aussi un problème quand je lance un alignement sur un nombre de notices conséquent (5000).

 

Nous avions fait des tests corrects avec un petit échantillon (10 notices), mais avec un ensemble plus important, j'ai systématiquement un message d'erreur après un certain nombre de notices traitées (c'est variable). Aujourd'hui, le problème est arrivé rapidement.

erreur_bibliostratus.jpg.727564c14f8e4782b144a1c81cb47e36.jpg

 

Les fichiers de résultats et de rapport sont générés. Les résultats s'affichent correctement pour les notices qui ont pu être traitées, par contre le rapport est vide.

 

Est-ce un problème de connexion ?

 

 

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully

@Emilie Ce n'est pas exactement un problème de taille de fichiers : Bibliostratus peut traiter des fichiers de 100.000 lignes (c'est juste plus long... chaque requête prenant entre 1/2 et 3 secondes en moyenne selon le type d'alignement).

Mais plus il y a de lignes, plus il y a le risque de rencontrer un problème non constaté auparavant.

Et là, manifestement, le programme n'a pas réussi à se connecter à une des API interrogées (domybiblio.net, peut-être)

Et il aurait dû passer à la ligne suivante -- sauf que je n'avais pas prévu ce type d'erreur à cet endroit là du code...

Vous serait-il possible de me transmettre le fichier en question ?

 

En attendant que la future version du logiciel prenne en compte ce type de problème, pouvez-vous par ailleurs essayer de repasser le même fichier, car les problèmes de connexion ne se reproduisent pas forcément ?

Partager ce message


Lien à poster
Partager sur d’autres sites
Emilie

@Lully Je vous envoie le fichier en pièce jointe.

Effectivement, j'ai relancé le traitement du fichier hier soir, il a pu se faire en intégralité sans problème de connexion.

 

Le fichier contenant nos notices d'imprimés contient 185 000 lignes... Nous avons du nettoyage à faire, mais je pense qu'il va falloir faire des sous-ensembles pour essayer d'avoir des statistiques de recouvrement pour l'ensemble de nos notices.

BMBAYONNE-TEX-texte-monographie-1.txt

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
1 hour ago, Emilie said:

@Lully Je vous envoie le fichier en pièce jointe.

Effectivement, j'ai relancé le traitement du fichier hier soir, il a pu se faire en intégralité sans problème de connexion.

 

Le fichier contenant nos notices d'imprimés contient 185 000 lignes... Nous avons du nettoyage à faire, mais je pense qu'il va falloir faire des sous-ensembles pour essayer d'avoir des statistiques de recouvrement pour l'ensemble de nos notices.

BMBAYONNE-TEX-texte-monographie-1.txt

Merci pour le fichier et pour cette confirmation sur la bonne exécution du programme

J'en ai profité pour améliorer l'exploitation du FRBNF quand il y a autre chose dans la zone (comme la mention "(moccam)"...)

J'arrive, sur un lot de 500 notices de l'échantillon, à 90% d'identifiants uniques, et 5% d'identifiants doubles (et 3% sans ARK ni PPN trouvé).

Partager ce message


Lien à poster
Partager sur d’autres sites
mvautier

Bonjour,

 

Je représente une bibliothèque Suisse qui s'intéresse à ce projet. Voulant tester le logiciel Bibliostratus, je sollicite votre aide. En effet, nos notices ne sont pas au format Unimarc, mais au format MARC21.

Je les exporte en MARCXML, mais lorsque j'essaie de les convertir en tableaux, cela ne fonctionne pas correctement. La suite des opérations d'alignement non plus.

 

Bibliostratus est-il prévu pour fonctionner avec des notices en MARC21? Oui seulement en Unimarc?

 

Meilleures salutations.

Partager ce message


Lien à poster
Partager sur d’autres sites
FabM
Le 25/09/2018 à 21:39, Lully a dit :

 

Bonjour

quelle version utilisez-vous ? La dernière version disponible (compilée) est la v.22, et elle ne devrait pas produire cette erreur (parce que la fonction incriminée, check_digit_10, qui plante, n'existe plus dans la version 22)

Si vous utilisez une version antérieure, et que dans le menu principal vous ne voyez pas de bouton vous proposant de télécharger la dernière version, c'est qu'il y a un problème (et je veux bien que vous me le confirmiez)

Bonjour,

Désolée pour le délai de réponse. Effectivement, j'ai une version 1.16. Je vais y remédier tout de suite.

Par contre, pas de bouton "télécharger la dernière version" dans le menu principal...

Merci pour votre aide !

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully
On 10/9/2018 at 1:28 PM, mvautier said:

Bonjour,

 

Je représente une bibliothèque Suisse qui s'intéresse à ce projet. Voulant tester le logiciel Bibliostratus, je sollicite votre aide. En effet, nos notices ne sont pas au format Unimarc, mais au format MARC21.

Je les exporte en MARCXML, mais lorsque j'essaie de les convertir en tableaux, cela ne fonctionne pas correctement. La suite des opérations d'alignement non plus.

 

Bibliostratus est-il prévu pour fonctionner avec des notices en MARC21? Oui seulement en Unimarc?

 

Meilleures salutations.

Il y a une fonction un peu discrète (c'est plus ou moins exprès, je ne voulais pas ajouter un bouton pour une option qui ne concernerait qu'un petit nombre de personnes) : une fois que vous avez téléchargé le logiciel, il y a dans le dossier bibliostratus\main\files, un fichier preferences.json.

La dernière ligne comporte la valeur "unimarc". Il faut lui substituer "marc21". La conversion de fichiers Marc en tableaux devrait alors être plus satisfaisante (je ne prétends pas qu'elle soit parfaite, elle a été beaucoup moins testée que l'autre).

 

 

Partager ce message


Lien à poster
Partager sur d’autres sites
FabM
Le 09/10/2018 à 15:47, FabM a dit :

Bonjour,

Désolée pour le délai de réponse. Effectivement, j'ai une version 1.16. Je vais y remédier tout de suite.

Par contre, pas de bouton "télécharger la dernière version" dans le menu principal...

Merci pour votre aide !

 

Bonjour,

Quelqu'un a-t-il eu le message suivant  : "HTTP Error 502 : proxy Error" ?

Mon programme est bloqué depuis. Est-ce que c'est mon réseau qui est en cause ?

Par contre, j'ai récolté des fichiers cette fois (résultats & stats).

Merci !

 

Msg erreur proxy.PNG

Partager ce message


Lien à poster
Partager sur d’autres sites
mvautier
Il y a 5 heures, Lully a dit :

Il y a une fonction un peu discrète (c'est plus ou moins exprès, je ne voulais pas ajouter un bouton pour une option qui ne concernerait qu'un petit nombre de personnes) : une fois que vous avez téléchargé le logiciel, il y a dans le dossier bibliostratus\main\files, un fichier preferences.json.

La dernière ligne comporte la valeur "unimarc". Il faut lui substituer "marc21". La conversion de fichiers Marc en tableaux devrait alors être plus satisfaisante (je ne prétends pas qu'elle soit parfaite, elle a été beaucoup moins testée que l'autre).

 

 

Merci!

Partager ce message


Lien à poster
Partager sur d’autres sites
Lully

@FabM : Je ne suis pas sûr d'avoir compris

On voit bien dans la copie d'écran que l'erreur 502 est constatée, mais ne bloque pas le programme. D'ailleurs, si vous avez obtenu un fichier de stats, c'est bien que le programme est arrivé jusqu'au bout.

Donc qu'est-ce qui vous fait dire que "le programme est bloqué" ? Il n'y a pas le message "Programme terminé" à la fin de la liste des alignements dans le terminal ?

 

Partager ce message


Lien à poster
Partager sur d’autres sites

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant

×