Tags Posts tagged with "ocropusa"

ocropusa

przez -
0 528
Prasa, czcionka

Google poinformowało o narodzinach nowego projektu FLOSS, który będzie realizowany przy współpracy z niemiecką grupą badawczą IUPR (Image Understanding and Pattern Recognition). Ma on zmienić żałosny stan aplikacji OCR pod Linuksa. Projekt o nazwie OCRopus będzie zajmował się masową konwersją druków do postaci elektronicznej, co naturalnie szczególnie interesuje sponsora (Google), ale projekt nie będzie zawężany wyłącznie do niego. Chodzi o stworzenie bazy do wielostronnego rozwoju usług OCR przez mechanizm wtyczek. Pewnie dlatego nazwano go – w wolnym przekładzie – “ośmiornicą do OCR“.

Obecna wersja programu jest tak zwaną prezentacją technologi (Technology Preview). Nie jest to nawet wersja alfa. Kod aplikacji składa się z silnika Tesseract. Dodano również prowizoryczne moduły analizy układu stron, uproszczone narzędzia do testowania oraz model języka opartego na aspell.

Plany na najbliższy rok zakładają wydanie na jesień wersji alfa, w pierwszym kwartale 2008 wersji beta, a pół roku później stabilnej wersji 1.0, być może od razu z gotowym interfejsem graficznym. Jeszcze w wersji alfa zostaną zintegrowane dalsze z już powstałych modułów (m.in. analiza statystyczna i wykorzystanie sieci neuronowych).

Po wydaniu stabilnej wersji projekt ma być wspierany przez następne 1,5 roku. W tym czasie dojdą kolejne (także często już istniejące) moduły, wykorzystujące mechanizmy uczenia się aplikacji, interfejs usług webowych oraz rozpoznawanie tekstu z dokumentów PDF, kamer i ekranu. Twórcy liczą wówczas na pomoc przy dodawaniu obsługi innych języków, integracji z wyszukiwarkami biurkowymi, interfejsach graficznych dla różnych środowisk i systemów oraz tworzeniu pakietów na rozmaite platformy oraz dystrybucje.

Głównym językiem w jakim projektu jest C++. Dodatkowo wykorzystywany jest Python oraz wbudowany język skryptowy lua. Pierwotnym środowiskiem rozwojowym jest Ubuntu Linux 6.10 na 32- i 64-bitową architekturę x86. Kod jest rozwijany na Apache License 2.0.

Polecane

PyCode-conference

0 688
Pythonowi wyjadacze, pasjonaci języka i mierzący wysoko początkujący programiści - 1-2 października musicie się wszyscy znaleźć w Centrum Konferencyjnym Kopernik w Warszawie, gdzie rozpocznie...
vlc

0 834