Teljes szövegű kereshetőség

A digitalizált dokumentumok, könyvek szövege nem csupán olvasható, de kereshető és szerkeszthető is.

Egy könyv esetén szolgáltatásunk révén elérhető a 100%-osan felismert karakterek, szavak aránya. Ma már a csupán papír alapon rendelkezésre álló dokumentumok (könyvek, nagyobb terjedelmű elemzések, szakértői anyagok, publicisztikák… stb.) hatékony feldolgozásához elegendő egy archiváló szkenner és a képek megjelenítését biztosító dokumentumkezelő, képmegjelenítő szoftverkörnyezet. Ezek azonban csak félig oldják meg a problémát, hiszen nem teszik lehetővé, hogy keresni lehessen a teljes szöveges állományban.

Szerkeszthető szövegfájlok

Az információ továbbra is képként áll rendelkezésünkre: nem másolható, nem szerkeszthető, nem kereshető. Ilyen esetekben a digitalizálás célja tehát nem csak az, hogy a dokumentumok beszkennelt TIFF vagy PDF állományok formájában legyenek tárolva, hanem hogy a beszkennelt dokumentumokkal végzendő munka során a képek bekerüljenek egy automatizálható feldolgozórendszerbe, amely kereshető információvá konvertálja azokat.
Ez a konvertálás történhet újragépeléssel, illetve olyan intelligens technológia segítségével, mint az automatikus karakter- vagy képfelismerés. Ezen technológiák használatával az eredmény nem csupán képek halmaza lesz, hanem a képeken olvasható szöveg kereshető, szerkesztett változata is. A szöveg tartalom több lehetőségként is rendelkezésre állhat, úgymint külön TXT, WORD, XML… stb. fájlban, illetve úgynevezett kétrétegű PDF-ként. Utóbbi esetben maga a PDF fájl kereshető, illetve a kijelölt szöveg pl. WORD fájlba másolva nem beszúrt képként jelenik meg, hanem szerkeszthető szövegként.

Könyvszkennelés: megőrzött eredeti szövegkörnyezet

A könyvszkennelési projektek esetén gyakori elvárás a kétrétegű PDF-ben történő megjelenítés, így megőrizhető az eredeti – akár képekkel, grafikonokkal, stb. teleszúrt – szövegkörnyezet, de biztosítható a teljes szövegben történő keresés lehetősége is.
Az általunk alkalmazott OCR technológia minősége biztosítja, hogy az automatikus szövegfelismerés minimum 95%-os pontosságú legyen. Ez a mutató tovább javítható, amennyiben a szoftver által nem 100%-os bizonyossággal felismert szavakat ún. validáló munkatársak ellenőrzik és javítják. E többletszolgáltatásunkkal elérhető a 100%-osan felismert karakterek, szavak aránya.

Miként valósítható meg költséghatékonyan a digitalizálás?

Puha fedeles könyv esetében a gerinc ragasztott (cca 1-1,5 mm vastag) részének levágását követően lapbehúzós technológiával történik a szkennelés. Ez jellemzően nem a muzeális értékű vagy ritka, már csak pár példányban létező kiadványok feldolgozásának módszere. Utóbbiak esetén lehetőség lehet a gyors szkennelést lehetővé tévő, könyvkötő általi szét-, illetve összefűzés, valamint a hagyományos könyvszkenner vagy robotszkenner használata.
A könyvek digitalizálása esetén a szkennelési technológiát minden esetben a Megrendelővel közösen, egyedileg elbírálva határozzuk meg.