Apache Tika 1.0

Apache Tika 1.0

przez -
0 544
Apache

Wydano Apache Tika 1.0 – narzędzie do wykrywania i wypakowywania metadanych i struktury zawartości dokumentów, używając istniejących bibliotek parsera. Projekt rozpoczął się, jako podprojekt Apache Lucene w 2007 roku i został odłączony od niego w maju ostatniego roku. Jest on zbiorem bibliotek Java i potrafi obsługiwać struktury dokumentów HTML, XML, Microsoft Office(OLE2 i OOXML), OpenDocument Formats, PDF, ePub, RTF, skompresowane i spakowane pliki, różne kodowania, skrzynki pocztowe Outlook i mbox, tekst zawarty w plikach audio, wideo, obrazkach. Posiada graficzny interfejs użytkownika do zarządzania zawartością pliku.

Najnowsza wersja usuwa metody API pre-1.0 i porzuca wsparcie dla starej Javy 1.4. Ulepsza integrację OSGi, dzięki czemu można używać teraz automatycznie procesów Parser i Detector.

Dodano rozpoznawanie języków: białoruskiego, katalońskiego, hiszpańskiego, galicyjskiego, litewskiego, rumuńskiego, słowackiego, słoweńskiego i ukraińskiego. W Outlooku można od teraz przetwarzać załączniki z wiadomości, natomiast w MS Office ulepszono wydajność rozpakowywania dokumentów docs. Parser PDF potrafi rozpakowywać paragrafy z każdej strony i opcjonalnie tekst z adnotacji PDF. Istnieje także możliwość włączenia lub wyłączenia wstawiania automatycznej spacji. W dokumentach OpenOffice procesora tekstu, arkusza kalkulacyjnego i prezentacji rozpakowywany jest tekst nagłówka i stopki.

Warto wspomnieć, że w rozwoju tej wersji brał udział Polak – Andrzej Białecki.

Brak komentarzy

Odpowiedz