Business pentru scanare și cărți în format digital idee de afaceri
Câștigurile privind digitalizarea cărților
Definiția digitizare, cu doar cărți de hârtie, aceasta nu este o definiție precisă. Procesul implică purtătorul ca sursă, și nu este întotdeauna singura hârtie. În lumea de astăzi există mai multe tipuri de medii de stocare - cărți de hârtie, un ecran de computer, fișiere imagine, site-uri web, publicații multimedia, și așa mai departe.
O definiție mai precisă a „cărți în format digital“ ale procesului - este crearea sau utilizarea copiei grafice finit a paginii într-unul din formatele adecvate (de exemplu, TIFF, JPG, PDF, DjVu, PNG) urmat de (nu este necesar întotdeauna) recunoașterea textului și rezultatul digitalizării pentru copierea ulterioară, reproducerea, stocarea și inclusiv copia primară a traducerii în alte formate digitale necesare pentru tipul de utilizare.
Cel mai popular mod de a digitizării - traducere a imaginii bitmap într-o carte în format digital. Printre formatele pot fi grafice - PDF, DjVu, formate pentru benzi desenate - CBZ, CBR, de text - TXT, FB2, EPUB, PDF, HTML, DOC, și așa mai departe. De obicei, formate de imagine nu sunt scalabile. Ei păstrează proporțiile și dimensiunea paginii originale cu conținut. Ei destul de des, pentru a reduce compactitatea pagini goale ale câmpului la caseta de text, ca imagine a cărții, este mai bine pentru a se potrivi ecranele de dispozitive mobile.
Digitalizarea cărților - este o altă posibilă sursă de conținut electronic pentru a citi.
Pe digitizarea scena istorică a cărților este utilizată pentru diverse scopuri. De la uz personal pentru uz profesional. Ca un hobby și o formă de venit. Pentru a umple conținutul biblioteci și magazine. Destul de o regulă obișnuită - mai mult conținut vândut sau distribuit în mod gratuit, cu atât mai puțin este folosit pentru a crea un conținut electronic digitalizate. Această activitate devine canal extrem de specializate pentru amatorii și profesioniști. În același timp, bibliotecile de conținut, merge prin schimbul, mai degrabă decât crearea de noi copii digitale.
Magazine și arhivele muzeului digitizarea în mod activ cărți din mai multe motive, principalele dintre care este lipsa de acces la o copie digitală de la proprietarul drepturilor de autor, sau un număr limitat de cărți vechi, materialul sursă nu a fost creat digital dial.
Proprietarii de copii ale literaturii foarte specializate tind să nu creeze conținut pentru consumator în masă, sursa din care sunt cărți rare. În acest caz, o copie digitală este creată pentru studiul cărților, fără a aduce atingere transportatorului principal, nu numai din partea cititorului, dar, de asemenea, pentru a elimina influența aerului, lumina si diverse gaze, paraziți și așa mai departe. copii digitale rare de cărți și manuscrise se găsesc cel mai frecvent în arhive istorice și biblioteci.
E-carti, ca fișiere sunt create în mai multe moduri: copie digitală directă de la un aspect profesional sau instruit, precum și digitalizarea cărților de hârtie sau alte surse în format electronic. formă învechită de digitizare poate fi considerată ca tastare manuală și dictare.
Nu este întotdeauna și pretutindeni o carte digitizate ar trebui și poate conține text, care pot fi apoi scalate și chiar edita, inclusiv de conversie pentru a utiliza în alte formate de e-book bazate pe text. Cărțile digitizate pot fi un facsimil, care este grafic reflectă cu acuratețe paginile de hârtie de copiere.
Manualele sunt obținute prin OCR. Metoda de OCR (recunoașterea optică a caracterelor ang.) - recunoașterea optică a caracterelor. pagini ale unei cărți scanate anterior format de imagine, iar apoi textul este recunoscut de un software special. Precizia de recunoaștere depinde de calitatea fontului, contrastul textului, prezența unor defecte și ilustrații grafice. Calitatea finală, în cele mai multe cazuri, este controlată de corectoarele care colaționează textul între sursa primară și o copie digitală.
(Destul de o mulțime de diferențe între experți OCR solicită posibilitatea de a salva sau greșeli de ortografie în copiile digitale, care a avut loc într-o carte de hârtie).
Preparat prin carte digitală este transformată într-unul din formatele de text. Puteți converti apoi cartea terminat în alte formate populare, cu posibila pierdere a aspectului, deoarece nu toate dintre ele sprijină un set coerent de aspect de text și ilustrații. Formatul primar este selectat depinde de digitizor preferințele și utilizarea lanțului de proces pentru transformare ulterioară. Cele mai multe formate avansate selectate structura de marcare.
cărți grafice create prin imagini de pagină precisă sau prin fax cu ajutorul unui instrument optic, de multe ori cu ajutorul unui scaner, cel puțin cu aparatul de fotografiat. Metoda aleasă prin determinarea ratei de conversie și posibilele daune care pot fi cauzate de iluminat exterior sursă primară, de încălzire sau îndoituri fizică originală.
Fiecare pagină a materialului scanat - un fișier de imagine JPEG, TIFF, sau oricare alta, inclusiv containere, care pot fi PDF sau DjVu. Alegerea formatului depinde de conversia ulterioară a mai multor fișiere într-un singur document, sau invers, atunci când un singur fișier este creat dintr-o multitudine de fișiere intermediare pentru coordonarea prelucrării profesionale.
Scanere, există mai multe tipuri - viteze diferite, built-in mijloace de recunoaștere, de proiectare și, desigur, dimensiunea. O diferență importantă este în prețul soluției în timpul funcționării unui anumit tip de scaner și controlul procesului de complexitate.
tip mai puțin comun - este un scanere compact de mână care nu sunt exacte, au viteză redusă, la un moment dat acoperă o suprafață mică a imaginii și nu au un mecanism de automatizare a proceselor încorporate. Dar, din cauza costurilor reduse, greutate redusă și compactitate - utilizate până în prezent. Convenabil pentru manuscrisele și pagini individuale.
Alte tipuri de scanere sunt dispozitive staționare. Acestea sunt împărțite în standard specializate și profesionale.
scanere tipice, ele sunt, de asemenea, un produs de masă, care există în vânzare, au formă compactă, petrec o operație pe o singură pagină de câteva secunde sau minute. Precizia și calitatea de copii digitale depinde în mare măsură de calitatea de potrivire a paginii originale de pe suprafața scanerului. Pentru coli unice, există o tavă de alimentare cu hârtie automată, care crește viteza scanerului, așa cum ia de fapt timp pentru a înlocui foile de sursa originală, sau este extrem de mic.
„Specializat“ scanere sunt diferite de „tipic“ posibilitatea de a crea o fără umbre copii ale originalului, iar acestea nu sunt întotdeauna scanere în sensul convențional. Să „regiunea de scanare foaie“ chiar și pentru cărțile la nivelul coloanei vertebrale. Uneori, ele au un software integrat pentru colectarea de copii individuale într-un singur document, deși producătorii de multe ori aplicate cu software-ul scanerului pentru PC și Mac. Acest lucru este vizibil mai apare pe un ecran de calculator de dimensiuni mari.
Cel mai adesea, scanere specializate numit „carte“. Ele aparțin tipului de tabletă. Cel mai accesibil și populare în rândul consumatorilor pot recunoaste produsele companiei PlusTek. Modelul OpticBook A300 permite să scaneze nu numai în regiune, dar, de asemenea, până la versiunea originală A3 foaie.
scanere profesionale au o dimensiune mare, viteza și metoda de scanare diferite.
„scanere planetare“ - este mai degrabă o copie optică, cu ajutorul unuia sau mai multor camere. Este numit astfel datorită locației camerei de filmat ca satelitul deasupra planetei, care este original scanat. Unele scanere pot utiliza două camere simultan pentru a face o copie a paginilor de cotitură.
Compania produce populara serie de scanere Atiz BookDrive. care este mai mult ca un studio foto mic. Diferite dimensiuni a site-ului principal pe care este plasat originalul. Este posibil să se digitalizeze hârtie sau o carte, care sunt aranjate pe baza unui unghi de 90 ° între foi, iar camerele sunt perpendiculare pe partea laterală a fiecărei foi dezvăluite pentru a salva geometria paginii fără distorsiuni.
serie de scanere planetare book2net Microbox de la Xerox au un site în cazul în care publicarea unei singure foi este situat pe bază și o fotografie instrument optic numai o singură pagină sau răspândirea, în ciuda faptului că ar trebui să fie la fel de plat pentru a evita umbrele de pe coloana vertebrala.
scanere robotizate au o dimensiune mare, acesta este de obicei un set gata în dulap, care are tot ce ai nevoie pentru a scana automat întreaga ediție - lumina, sistemul optic de scanare pentru pagina de cotitură, un control de calculator și funcțiile de servicii foarte specializate. Edition este scanat la un unghi mai mic. Pentru a îmbunătăți performanța, să realizați fotografii cu două pagini cu care se confruntă.
firma Treventus de mai mulți ani produce scanere robotizate ScanRobot. care într-un timp scurt, poate digitiza biblioteci întregi cu intervenție umană minimă. Partea din față a scanerului poate fi închis în timpul operației, pentru a preveni luminii parazite din surse externe de lumină.
Și scanere planetare robotizate funcționează cu o capacitate de 500 de pagini pe oră, iar cel mai bun model poate scana la viteze de până la 3000 de pagini pe oră.
După scanarea imaginii cu pagina originală, trebuie să recunoască textul și ilustrații. În acest scop, veți avea nevoie de un software special care poate recunoaște obiectele dintr-o imagine optic și logic. Dificultatea constă în recunoașterea formei caracterelor originale, contrastul, disponibilitatea de culoare de substraturi, grafice complexe sau structuri de aspect. În momentul recunoașterii veni probleme și erori comune pentru un anumit hardware și software, care sunt OCR specialist va încerca să compenseze prin utilizarea script-uri și verificarea ortografiei.
Scripturi, acest lucru este de obicei auto-a făcut de corectare a erorilor add-in. Este această atitudine distinge diferitele specialiști în OCR de calitate. script OCR creează specialiști pentru uz personal, iar acestea sunt relevante doar pentru metoda personală de OCR și echipamentul utilizat. Erasure textului este necesară nu numai pentru a corecta posibilele erori gramaticale, dar, de asemenea, pentru a seta tipografiei textul de bază.
Pentru a automatiza pre-tratare a textului, putem recomanda un program de OCR Pad Valeriya Voytsehovskogo.
Tehnologia computerelor nu se limitează la acuratețea recunoașterii. Foarte importante sunt corectorilor care citesc textul și verificați-l cu originalul. Acest lucru este foarte important, mai ales pentru literatura tehnică.
Pentru a accelera procesul de editare de text utilizează „metoda de alocare“ - documentul să fie distribuit între un grup de corectori. Această metodă vă permite să deducă cartea complet pentru câteva minute, dar nu toate puterea procesului de organizare. Acesta este frecvent utilizat interfață web, fără a fi nevoie de a instala software suplimentar pe mai multe computere.
Pentru corectura textul nu este obligatoriu pentru lingviști profesioniști. De obicei, acești oameni fac, înzestrat cu puteri de observație și atenție. Alfabetizarea este importantă nu atât de mult ca și posibilitatea de a compara de imprimare și textul electronic. Observați diferența în typos tehnice, diferența dintre litere și cifre.
Ficțiune poate fi citit doar pentru a găsi greșeli de ortografie.
În „OCR magazine“ „de lucru“ mici în perechi. De obicei, de către un specialist OCR este organizatorul procesului și cooperează cu unul sau un grup de corectori. Grupul există pentru o anumită combinație de caractere și caracteristici. Atunci când trecerea la un alt tip de gata e-carti răspândit, „Atelier“ poate dezintegra, parte a grupului aderă la opiniile ideologice cu privire la activitățile lor.
La momentul nașterii de e-carti, OCR-schiki călcat în prima cale pentru cititorii bibliotecilor libere și le-au adunat conținut. În cazul în care bibliotecile sunt cunoscute pentru cititor general, a fost umplut cu aceste biblioteci nu este un magazin de copii ale cărților, și colecții particulare OCR.
Timpul trece. Schimbarea priorităților, interesele și sursele de cărți în format digital. Interesul în carte recunoaștere a devenit mai mici și sa mutat la canalul profesional. Ponderea digitizare proprii bibliotecilor libere este mult mai mică decât cea a unui simplu copie a materialului finit. Prin urmare, dacă cineva este interesat de propria sa digitizare, este de obicei rar, și cărți pentru copii.
Recent, de multe ori digitizate pe un ecran de calculator fără a utiliza un scanner pentru cărți de hârtie. Nu există o mulțime de fani și atâta timp cât funcționează ca un „interes sportiv“ pentru spargerea media digitale securizate.

Scan 118 puncte / cm (300 dpi) este norma pentru conversia în formă digitală a textului, cu toate acestea, necesită utilizarea unei rezoluții mai mare pentru cărți rare și dificile. scanere de înaltă tehnologie sunt capabile de scanare aproximativ o mie de pagini pe oră, aceste dispozitive pot costa mii de dolari. Dar puteți face scanerul și el însuși, de exemplu, scanere de carte manuale care le poate digitiza 1200 pagini pe oră, în timp ce costul de construcție - aproximativ 300 $.