OCRopusa

0
1048
Prasa, czcionka
Prasa, czcionka

Google poinformowało o narodzinach nowego projektu FLOSS, który będzie realizowany przy współpracy z niemiecką grupą badawczą IUPR (Image Understanding and Pattern Recognition). Ma on zmienić żałosny stan aplikacji OCR pod Linuksa. Projekt o nazwie OCRopus będzie zajmował się masową konwersją druków do postaci elektronicznej, co naturalnie szczególnie interesuje sponsora (Google), ale projekt nie będzie zawężany wyłącznie do niego. Chodzi o stworzenie bazy do wielostronnego rozwoju usług OCR przez mechanizm wtyczek. Pewnie dlatego nazwano go – w wolnym przekładzie – „ośmiornicą do OCR„.

Obecna wersja programu jest tak zwaną prezentacją technologi (Technology Preview). Nie jest to nawet wersja alfa. Kod aplikacji składa się z silnika Tesseract. Dodano również prowizoryczne moduły analizy układu stron, uproszczone narzędzia do testowania oraz model języka opartego na aspell.

Plany na najbliższy rok zakładają wydanie na jesień wersji alfa, w pierwszym kwartale 2008 wersji beta, a pół roku później stabilnej wersji 1.0, być może od razu z gotowym interfejsem graficznym. Jeszcze w wersji alfa zostaną zintegrowane dalsze z już powstałych modułów (m.in. analiza statystyczna i wykorzystanie sieci neuronowych).

Po wydaniu stabilnej wersji projekt ma być wspierany przez następne 1,5 roku. W tym czasie dojdą kolejne (także często już istniejące) moduły, wykorzystujące mechanizmy uczenia się aplikacji, interfejs usług webowych oraz rozpoznawanie tekstu z dokumentów PDF, kamer i ekranu. Twórcy liczą wówczas na pomoc przy dodawaniu obsługi innych języków, integracji z wyszukiwarkami biurkowymi, interfejsach graficznych dla różnych środowisk i systemów oraz tworzeniu pakietów na rozmaite platformy oraz dystrybucje.

Głównym językiem w jakim projektu jest C++. Dodatkowo wykorzystywany jest Python oraz wbudowany język skryptowy lua. Pierwotnym środowiskiem rozwojowym jest Ubuntu Linux 6.10 na 32- i 64-bitową architekturę x86. Kod jest rozwijany na Apache License 2.0.

Poprzedni artykułCentOS 5
Następny artykułUbuntu Feisty RC opóźniony

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj