Biblioteca Digitală SPSTL România
TEHNOLOGII DE INFORMARE ÎN BIBLIOTECI
Brody AI Crearea de directoare de imagine în România mijloace SPSTL Irbis
Performanța Levcenco OV de referințe tematice scrise în Biblioteca Științifică Moscova Inginerie Fizică Institutul
Accesul deschis și arhivele deschise INFORMAȚII
Hagerlid Yang. Programul «OpenAccess.se» - experiența suedeză în sprijinul coordonare pentru programele deschise de acces
Biblioteci digitale. resurse electronice
Trachuk LF Shvetsova-Vodca Clasificare GN producției bibliografice electronice
Lavrik O. L. Kaljuzhnaja TA Digital Library SPSTL în sistemul de comunicare științifică
Noi Sukiasyan ER - bibliotecarilor! Reflecții asupra profesiei, precum și specialități, roluri și funcții
Grankina II Pregătirea programelor de formare pentru modelul personalului din biblioteci ca o zonă promițătoare în activitățile bibliotecii școlare de mijloc
Shaposhnikov AE aspectul teoretic al bibliotecii și informații de lucru
Stolyarov Yu. N. contribuție majoră la ideea de evoluția documentului
Pleshkevich EA „Managementul de documentare“ - un nou manual pentru liceu
TEHNOLOGII DE INFORMARE ÎN BIBLIOTECI
Crearea de directoare de imagine SPSTL în România
mijloace Irbis
Image Catalog - una dintre cele mai eficiente mijloace de conversie retrospectivă a cataloage de cărți pentru bibliotecile cu mare retrofondom (de exemplu, fondul, care nu se reflectă în catalogul electronic complet) și este un model electronic de „hârtie“ tradiționale directoarele care sunt bazate pe digitizate (scanate ) cartele index imagini.
În SPSTL România pentru a crea o imagine a directoarele utilizate de soluția propusă de IRBIS Library Automation System (dezvoltare ELNIT Association) - și anume, IRBIS Imagine de catalog (care este o versiune specializată a IRBIS64 baze de date text întreg - [1, 2]). Această decizie se bazează în primul rând pe baza automate ( "on the fly") cartele index OCR. Ca software-ul ( „motor“) pentru tehnologia de recunoaștere a textului utilizează ABBYY OCR firme-tehnologie. Datorită acestei:
- În primul rând, realizat de căutare full-text (cu clasarea rezultatelor, în funcție de proximitatea cuvintelor, morfologie, etc.), care, inclusiv posibilitatea de căutare bibliografică pentru profesioniști, oferă utilizatorului final, cu o cercetare tematică bogată;
- în al doilea rând, cerințe nu stricte la procedura de scanare și postarea de imagini de carduri, iar când acesta este supus unui model de „hârtie“ pe deplin realizat de căutare pentru separatoare de card.
Dar principala caracteristică a IRBIS Image Catalog este că baza de date nu funcționează separat, nu ca un sistem de sine stătător și integrate în tehnologia automatizată complet CE - și anume, stațiile de lucru de tehnologie „Catalogatorul“ și „Circulation“ IRBIS64 [3], care permite ca datele de intrare structurate (de exemplu, pictat retrofonda produce copii), datele de corecție recunoscute, șterge înregistrări, de debit și de a verifica rezervare fond, emiterea, returnare, documente, etc. prelungire.
IRBIS Image Catalog include trei module:
Administrator - pentru a crea propria bază de date director de imagine pe baza imaginilor scanate de carduri de index (operație lot), le-a construit-in „motor“ de ABBYY;
clientul original, pentru directorul final imaginea utilizatorului;
Web-Gateway pentru a accesa imaginea-catalog prin Internet / Intranet.
În plus, pentru a menține imaginea directorul bazei de date poate fi folosit Armagh „catalogare“, „Achizitii“ si „Circulation“ IRBIS64.
Procesul de creare a directorului de imagine este format din două etape (care pot fi realizate în serie sau în paralel cu un anumit decalaj în timp):
- scanarea catalogului de card;
- formarea directorul bazei de date a imaginii pe baza imaginilor scanate de carduri de index, inclusiv recunoașterea automată a procesului textelor lor.
etapa de scanare este deosebit de sarcină de producție și necesită echipament special care permite scanarea carduri de index cu viteză mare.
În România SPSTL folosite în acest scop scanere de mare viteză „Elar skamaks 2600m» și «Kodaki 1440" , cu o capacitate de până la 30 de carduri pe minut. Sursa de matrice pentru a crea directoarele de imagine catalog oficial alfabetic a fost selectat.
cartele index scanate pe două fețe cu o rezoluție de 200dpi în paleta de scară gri (8-BitGrayScale). Formatul JPEG este utilizat ca un format grafic. Imaginea unui card format ca două fișiere cu nume similare: Qnnnn.JPG - partea din față, Wnnnn.JPG - partea din spate (în cazul în care nnnn - numărul de serie al cardului în caseta de catalog). Mărimea medie a părții din față a fișierului de card - 20-30 KB, spate - 10-20 KB.
Imagini (fișiere) carti de la unul din caseta de catalog plasate în același director (purtătorul de motor) cu același nume ca caseta separator alfabetic (distanțiere din interiorul cutiei nu este utilizat). De exemplu: Averbuh - Aveshnikova; Aviaizmereniya - Avraam.
Trebuie remarcat faptul că, în numele directorului (și, prin urmare, în numele separatoarele) nu puteți utiliza simboluri, cum ar fi „:“ „?“, „\“, „/“, „*“, Ghilimelelor. De asemenea, nu se poate utiliza caractere „punct“ și un „decalaj“ în sfârșitul numelui.
Este acest sistem de denumire directoare vă permite să organizați de căutare în catalogul de imagine pentru separatoare (de exemplu, a crea un model de literală a catalogului tradițional). Necesitatea de a căuta delimitatori (de exemplu, necesitatea unei astfel de model) este dictat de următoarele considerente:
1. carte de proces OCR nu dă rezultate absolute - din cauza stării lor precare sau de calitate slabă de imprimare nu este recunoscut de tot textul sau o parte din text este recunoscut în mod incorect, pot exista cazuri în care cardul nu este recunoscut de text în toate; (Trebuie subliniat faptul că placa scrise de mână sau etichetele scrise de mână pe carduri, strict vorbind, nu sunt recunoscute). Aceasta conduce la faptul că, dacă căuta text (de exemplu, în cuvintele textului recunoscut), unele cărți vor fi. Dacă nu oferă separatoare de căutare (ca o copie de rezervă), carduri de index prost recunoscute nu vor fi găsite în catalogul de imagine. Cu alte cuvinte - de căutarea unui separator în catalog imagine poate renunța numai în cazul calității absolute a recunoașterii (care este aproape imposibil de atins).
2. Există situații, în principal legate de căutare bibliografică, în cazul în care căutarea separatorului poate fi mai eficientă decât căutarea cuvintele textului. De exemplu, necesitatea de a găsi o carte pe un periodic (revista) numit „Life“: căutare pentru cuvântul „viață“ în catalogul de imagine pentru un volum suficient de mare va avea ca rezultat o problemă foarte mare, care va fi dificil de a găsi cartea de dreapta; mult mai repede va fi găsit pe delimitatorul alfabetică.
3. Asigurați-vă că există utilizatori (printre ei pot exista cititori și bibliotecari), care din diferite motive doresc să acționeze „în vechi“, adică, Căutare după cuvânt scris, acesta va prefera să caute pentru separatoare de card. Nu există nici un motiv pentru a le priva de o astfel de posibilitate.
Când scanați un card de cataloage în mod inevitabil apare întrebarea: dacă să excludă de la cartele index de scanare corespunzătoare „noi“, adică edițiile cele deja incluse în catalogul complet electronic. Conform logicii stricte ar trebui să fie făcut pentru a evita duplicarea datelor în catalog imagine și catalog electronic; Pe de altă parte, procesul de selecție a cartele index (retragere „noi“ cartele de la cutii înainte de a scana lor și să revină la poziția inițială, după finalizarea procesului) este extrem de consumatoare de timp. În România SPSTL pentru toate directoarele (exclusiv directorul „National al Cartii“) a decis să prevină duplicarea, nu pentru a crește complexitatea și, prin urmare, executarea tuturor procesului de scanare, adică, „Noile“ cartele index nu au fost excluse de la scanare.
În conformitate cu structura serviciului director scanat în mod independent, următoarele directoare (și astfel - pentru a crea imagini separate de matrice de carduri de index):
Procesul de formare directorul bazei de date de imagine - a doua etapă de funcționare - este complet lot (singur) calculator, adică Aceasta nu implică operații manuale. Pentru a realiza acest lucru este ARM „Administrator“ din baza de date IRBIS64 Full-text cu funcție de recunoaștere. a timpului de muncă este determinată de volumul original carduri index de matrice și cărți audio rata de recunoaștere. Recunoașterea timp carte audio de pe mediile de calculator (RAM de 2 GB, 2,4 GHz) - aproximativ 1,5-2 secunde (adică cel puțin 10 mii recunoaște carduri necesită aproximativ 6 ore.). În România carduri de index SPSTL dezavantaj nu au fost supuse recunoașterii (ca cuprinde în principal date cu caracter scrise de mână de serviciu).
Astfel, imaginea de cinci directoare create în SPSTL România (a se vedea. Tabelul).
Utilizatorul final (cititorul) pentru a lucra cu imaginea-catalog oferă două opțiuni:
- aplicație client original pe baza IRBIS Navigator;
- Web-Gateway pentru a accesa baza de date catalog de imagini prin Internet / Intranet, nu (de exemplu, folosind browser-ul Web).
Interfața utilizator a aplicației client originale pe baza IRBIS Navigator (vedere generală) este prezentată în Fig. 1.
![Biblioteca Digitală SPSTL România (bibliotecă) Biblioteca Digitală SPSTL România](https://webp.images-on-off.com/28/18/434x326_67qltyxb5zzc3kbizqya.webp)
Fig. 1. Vedere generală a cererii clientului, pe baza IRBIS Navigator
pentru a căuta catalogul de imagine
Elementul principal este caseta de interfață ( „Eu caut“), în cazul în care utilizatorul introduce o interogare de căutare în limbaj natural. rezultat al căutării apare în ordinea relevanței documentelor găsite (adică afișate primele cărți care sunt cele mai relevante pentru cererea) descendent. Fiecare document este prezentat sub formă de imagini ale fișelor de catalog, în cazul în care roșu subliniați cuvinte ale textului care corespunde cererii inițiale (fig. 2).
![Biblioteca Digitală SPSTL România (cartele index de imagine) Biblioteca Digitală SPSTL România](https://webp.images-on-off.com/28/18/434x347_9jsm6ucalmzbykmoajp8.webp)
Fig. 2. Rezultatul cautarii pentru imaginea-catalog
Opțiunea principală este de a căuta documente similare, executabile, desigur, în mod automat pe baza algoritmului original, care constă din următoarele operații logice sau etape:
- selectat toate cuvintele din textul documentului original (carte);
- excluse cuvinte non-semnificative (uninformative), în conformitate cu o listă fixă de stop-cuvinte;
- cuvintele sunt aranjate în frecvență crescătoare a apariției lor în dicționar general al cuvintelor de bază de date de director de imagine;
- ca fiind cel mai informativ luat primele zece cuvinte ale unei liste ordonate, iar pe baza lor este format dintr-o cerere de căutare sau documente similare.
Opțional, utilizatorul final poate fi oferit pentru a căuta după subiect Navigator, care este înțeleasă ca un sistem de clasificare verbală este de tip ierarhic și construit pe baza interfeței de utilizator (navigator). (. Figura 3) Utilizarea browser-ului pentru a căuta tema permite, pe de o parte, pentru a simplifica căutarea în cazul unor interogări tematice generale, iar pe de altă parte - compensa deficiențele de căutare cunoscute folosind lexiconul liber (non-normalizat) ( „zgomot“ și inexacte).
![Biblioteca Digitală SPSTL România (bibliotecă) Biblioteca Digitală SPSTL România](https://webp.images-on-off.com/28/18/434x326_96fq700opu67tzrvzli1.webp)
Fig. 3. Tema Navigator
Pentru a crea un sistem de clasificare a propus model structural de construcții. Algoritmul de căutare pe un navigator tematic este că textul interogării este format nu numai pe baza coloanelor selectate de utilizator pentru a ciclonului, dar, de asemenea, cu toate rubricile subordonate și cuvintele cheie asociate acestora ( „invizibile“ pentru utilizator, acestea sunt prezente în structura clasificator). Această posibilitate IRBIS Image Catalog (Tema Navigator) SPSTL în România nu a fost încă folosit.
Interfață la imagine-director (prin Web gateway) la SPSTL on-line România este prezentată în Fig. 4. Web gateway permite să realizeze aceeași funcție ca și clientul original pe baza IRBIS Navigator.
![Biblioteca digitala SPSTL România (România) Biblioteca Digitală SPSTL România](https://webp.images-on-off.com/28/18/434x347_etz3mxjisqt4bgf5w7jy.webp)
Fig. 4. Accesul la imagine-director pe site-ul SPSTL România
După cum sa menționat mai sus, o trăsătură distinctivă a IRBIS Imagine de catalog este că permite gestionarea integrată a tehnologiei de baze de date de imagine-director în tehnologii de automatizare catalog electronic complet, oferind astfel posibilitatea de a efectua în catalogul de imagine de lucrări, cum ar fi amortizări și literatura în mișcare , Circulation și colab. Fig. 5 prezintă AWP „catalogare“ interfață (de la IRBIS64 compoziție), cu care se poate menține o bază de date de catalog de imagine complet automatizat de tehnologie CE, în special, descrierea structurată a publicațiilor din imagine bazată pe card catalog (dacă este necesar) sau pentru a face ajustări textul recunoscut.
![Biblioteca Digitală SPSTL România (bibliotecă) Biblioteca Digitală SPSTL România](https://webp.images-on-off.com/28/18/434x325_w0cs6usb4824iyzdc8t8.webp)
Fig. 5. Accesul la imagine-catalog prin ARM „catalogare“
APM „Circulation“ (fig. 6) vă permite să lucrați cu ordine de electronice, care sunt formate de către directorul final imaginea utilizatorului. cititorilor Comenzile depuse sub formă de imagini de carduri catalog publicații corespunzătoare. Mod special se propune, care permite să descrie instanță Publicarea la scoasă la ieșire în momentul emiterii ( „on the fly“). Pe această bază, este posibil să se efectueze pictura copii ale catalogului de imagine în circulație (în loc de a face acest lucru anterior, în totalitate, în Armagh „catalogare“).
Se poate concluziona că crearea directoarele de imagine este practic singura modalitate de a conversia retrospectivă a cataloagelor de volume mari (sute de mii de carduri). Retroconversion „Manual“ de intrare de la tastatură - chiar și cu împrumut de tehnologii - este inacceptabilă atât pentru complexitatea, și în termeni de performanță.
Singurele „negative“ cataloage de imagine - costurile financiare semnificative asociate cu crearea lor (deși se poate presupune că costul de intrare „manual“, având în vedere intensitatea lui extremă a muncii, rezultatul va fi comparabil cu costul catalogului de imagine). Trebuie înțeles faptul că cea mai mare parte a costurilor la crearea catalogului de imagine (aproximativ 90%), în decizia numai problema de producție - scanarea efectivă a cartele index.
În acest sens, trebuie spus că SPSTL România, având în instalațiile de producție respective - scanere de înaltă performanță și personal calificat, pregătit pe bază de contract pentru a efectua activitatea de scanare a cataloagelor de alte biblioteci și cooperare cu Asociația ELNIT - pentru a crea imagine-director „la cheie“ .
![Biblioteca Digitală SPSTL România (e) Biblioteca Digitală SPSTL România](https://webp.images-on-off.com/28/18/434x347_wx20zjf15vick8f1x4m9.webp)
Fig. 6. Lucrul cu Image Catalog prin "Circulation" AWS