OpenOffice i OCRImport

OpenOffice i OCRImport

    przez -
    5 126
    OpenOffice
    Tesseract to wykupiony od HP oraz uwolniony przez Google, pierwszy silnik skanera OCR, który działa. Na jego podstawie rozwijany jest OCRopus, analizator dokumentów, wykorzystywany m.in przez AbiWorda. Wyzwanie jakim była jego integracja z Go-OO, podjął się pewien francuski student w ramach tegorocznego Google Summer of Code.

    Choć praca nad projektem nie została jeszcze zakończona, Jonathan Winandy już opublikował wideo prezentujące postępy, oraz sposób działania dodatku.

    Jak widać do końca bliska droga. Jonathan wymienia jeszcze 3 rzeczy, które musi zrobić przed wydaniem oficjalnej wersji: poprawić Interfejs użytkownika, stworzyć paczkę dla użytkownika końcowego oraz w ogóle stworzyć paczkę dla Windows.

    Jasna rzecz, nie mógłbym nie wspomnieć o polskiej odnodze silnika tesseract, projekcie tesseract-polish, którego celem jest poprawa jakości w odczytywaniu polskich znaków narodowych. Jeśli masz za dużo czasu i zależy Ci na dobrym skanerze, ten projekt jest właśnie dla Ciebie!

    Źródło: How OcrImport is going?

    • Zal

      Jeden z gorszych screencastów, jakie w życiu widziałem :D Ale za to funkcjonalność interesująca.

    • Ja również. ;) Gdy zobaczyłem te dymki, całkowicie zignorowałem tekst na nich sądząc, że to powiadomienia (jak w Ubuntu).

    • xeros

      Fajnie, że ktoś się podjął takiej wtyczki do OOo :-)
      Tego mi brakowało, a OCR-y, które ze 2 lata temu testowałem w Linuksie praktycznie nie nadawały się do niczego.

      A swoją drogą to niedawno Sun wydał wtyczkę PDFImport w wersji 1.0, która działa całkiem nieźle – nie ma już problemów m.in. powodujących dzielenie pól tekstowych zawierających polskie litery.

    • Paweł Ciupak

      A będzie ta funkcjonalność w upstreamowym OO.o? Czy tylko w wieszającym się novellowskim forku?

    • xeros, ale nadal rozbija każde zdanie na osobne pole tekstowe, a poza tym importuje do Drawa a nie Writera.

      Panie Ciupak, OCRImport to rozszerzenie. Prawdopodobnie zadziała na OO.o, Go-OO, EuroOffice itd.