Portál AbcLinuxu, 9. června 2024 08:23

Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý

28.9.2006 12:59 | Přečteno: 5613× | Výběrový blog | poslední úprava: 15.4.2007 16:17

Po téměř úplném přechodu na Linux přibližně před rokem jsem přestal používat OCR jelikož jsem na to nenašel žádný použitelný software pro Linux zdarma. Nic z toho co jsem zkoušel nefungovalo. Google nedávno informoval o uvolnění OCR engine Tesseract pod licencí Apache 2.0. Dnešní článek na Newsforge mi to připomněl, tak jsem se rozhodl Tesseract vyzkoušet. Zdrojový kód je ke stažení ze Sourceforge. Kompilace a instalace je snadná a rychlá (Ubuntu 6.06): $ ./configure; make; sudo checkinstall -D. Tesseract však poté nefunguje. Je ještě třeba dát adresář tessdata/ do /usr/local/bin/.

Dal jsem Tesseractu přečíst stránku jednoho článku ve formátu tiff ($ tesseract test.tif test). Ta jedna stránka má 17 MB (scan z kopírky v knihovně) a Tesseract ji přečetl skoro hned. Existuje i skript na převod souborů pro Tesseract. Vzniklý soubor test.txt je minimálně stejně dobrý jako výstupy z různých programů co jsem používal ve Windows (nepamatuju kterých, prostě nějaký shareware). Je tam pár chyb, ale jsem mile překvapen. Zdá se že znovu začnu využívat OCR.


       

Hodnocení: 100 %

        špatnédobré        

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

Komentáře

Nástroje: Začni sledovat (2) ?Zašle upozornění na váš email při vložení nového komentáře. , Tisk

Vložit další komentář

28.9.2006 13:29 medulin | skóre: 31 | blog: medulin | ČR
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
Odpovědět | Sbalit | Link | Blokovat | Admin
A jak je na tom z českými znaky?
stativ avatar 28.9.2006 13:53 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
Staci si precist ten clanek na linux.com- podpora pro jine nez us-ascii znaky neni.
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
28.9.2006 13:54 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
Sám jsem na to nepomyslel, protože s češtinou skoro nedělám. Teď jsem to zkusil a, jak jsem očekával, je to špatný. Český znaky zatím nezná.
Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.
28.9.2006 14:02 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
Odpovědět | Sbalit | Link | Blokovat | Admin
Pridej ho prosim do katalogu software ..
Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow
28.9.2006 14:27 miso | skóre: 36 | blog: iSCSI_initiator_howto | Praha
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
Hura, konecne!
z toho katalogu mam radost ;-)
Project Satan infects Calculon with Werecar virus
28.9.2006 15:29 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
Odpovědět | Sbalit | Link | Blokovat | Admin
Hihihi … :-D Těší mně, jmenuju se Google … :-D
Jak moc jsou ábíčkáři inteligentní? ;-)
28.9.2006 19:47 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
Pane Google, proč je Google Web Toolkit zrovna v Javě? :-D
When your hammer is C++, everything begins to look like a thumb.
28.9.2006 22:26 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
To já nevím, jak je vidět, dělám jim jen tiskového mluvčího … :-D (Něco jako Ústa Sauronova? :-))
28.9.2006 18:41 pasmen | skóre: 45 | blog: glob | Praha
Rozbalit Rozbalit vše Re: Tesseract 1.01. Open Source OCR Engine, vyzkoušeno a dobrý
Odpovědět | Sbalit | Link | Blokovat | Admin
Me by spis zajimalo, jestli by nekdo nevedel o nejakem software pro linux (at uz placeny nebo free, free radsi :) ktery by umel cist carove kody z naskenovanych dokumentu. Neco jako nemecky DocumentAssembler.

Založit nové vláknoNahoru

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.