OCRopusa

OCRopusa

    przez -
    0 267
    Prasa, czcionka
    Google poinformowało o narodzinach nowego projektu FLOSS, który będzie realizowany przy współpracy z niemiecką grupą badawczą IUPR (Image Understanding and Pattern Recognition). Ma on zmienić żałosny stan aplikacji OCR pod Linuksa. Projekt o nazwie OCRopus będzie zajmował się masową konwersją druków do postaci elektronicznej, co naturalnie szczególnie interesuje sponsora (Google), ale projekt nie będzie zawężany wyłącznie do niego. Chodzi o stworzenie bazy do wielostronnego rozwoju usług OCR przez mechanizm wtyczek. Pewnie dlatego nazwano go – w wolnym przekładzie – “ośmiornicą do OCR“.

    Obecna wersja programu jest tak zwaną prezentacją technologi (Technology Preview). Nie jest to nawet wersja alfa. Kod aplikacji składa się z silnika Tesseract. Dodano również prowizoryczne moduły analizy układu stron, uproszczone narzędzia do testowania oraz model języka opartego na aspell.

    Plany na najbliższy rok zakładają wydanie na jesień wersji alfa, w pierwszym kwartale 2008 wersji beta, a pół roku później stabilnej wersji 1.0, być może od razu z gotowym interfejsem graficznym. Jeszcze w wersji alfa zostaną zintegrowane dalsze z już powstałych modułów (m.in. analiza statystyczna i wykorzystanie sieci neuronowych).

    Po wydaniu stabilnej wersji projekt ma być wspierany przez następne 1,5 roku. W tym czasie dojdą kolejne (także często już istniejące) moduły, wykorzystujące mechanizmy uczenia się aplikacji, interfejs usług webowych oraz rozpoznawanie tekstu z dokumentów PDF, kamer i ekranu. Twórcy liczą wówczas na pomoc przy dodawaniu obsługi innych języków, integracji z wyszukiwarkami biurkowymi, interfejsach graficznych dla różnych środowisk i systemów oraz tworzeniu pakietów na rozmaite platformy oraz dystrybucje.

    Głównym językiem w jakim projektu jest C++. Dodatkowo wykorzystywany jest Python oraz wbudowany język skryptowy lua. Pierwotnym środowiskiem rozwojowym jest Ubuntu Linux 6.10 na 32- i 64-bitową architekturę x86. Kod jest rozwijany na Apache License 2.0.