Optyczne rozpoznawanie znaków (OCR). Oprogramowanie OCR: ABBYY FineReader, CuneiForm

Zadowolony

Zastosowania OCR
Proces określania poprawności tekstu
Technologia optyczna dla brajla
Wybór oprogramowania OCR
Popularne oprogramowanie dla urządzeń mobilnych
Dokumenty Google
Rozpoznawanie optyczne Abbyy
Usługa Adobe Acrobat w chmurze
Najlepsze darmowe oprogramowanie
Rozpoznawanie znaków w systemie Linux

Technologia OCR (Optical Character Recognition) może być wykorzystana do konwersji papierowej kopii dokumentu na wersję elektroniczną. Na przykład, jeśli wielostronicowa kopia jest skanowana do pliku TIFF, jest on pobierany do programu OCR, który rozpoznaje tekst, a następnie tłumaczy go na plik edytowalny. Niektóre aplikacje umożliwiają skanowanie stron i przekształcanie zawartości w dokument w jednym kroku.

Chociaż technologia ta została pierwotnie opracowana dla optycznego rozpoznawania znaków, może być również wykorzystywana do rozpoznawania pisma ręcznego. Na przykład usługi pocztowe, takie jak USPS, wykorzystują oprogramowanie OCR dla automatycznych do przetwarzania listów i paczek poprzez odczytywanie adresu.

Zastosowania OCR

OCR to skrót od Optical Character Recognition (optyczne rozpoznawanie znaków). Jest to szeroko rozpowszechniona technologia rozpoznawania tekstu w obrębie obrazów w postaci zeskanowanych dokumentów i fotografii. Technologia ta służy do konwersji niemal każdego rodzaju obrazu zawierającego tekst pisany, odręczny lub maszynowy na dane tekstowe odczytywane maszynowo.

OCR stał się popularny na początku lat 90-tych XX wieku w ramach próby digitalizacji materiałów historycznych. Od tego czasu metoda ta została znacznie ulepszona i obecnie oferuje niemal doskonałą dokładność OCR. Zaawansowane techniki, takie jak Zonal OCR, wykorzystują zautomatyzować złożonych przepływów pracy opartych na konwersji tekstów pisanych na maszynie do pisania na dokumenty cyfrowe. Po przetworzeniu zeskanowanych materiałów tekst można edytować za pomocą oprogramowania takiego jak Microsoft Word lub Google Docs, które są programami do edycji tekstów.

Przed pojawieniem się tej technologii jedyną możliwością digitalizacji dokumentów drukowanych było ręczne wpisywanie. Nie dość, że było to czasochłonne, to jeszcze prowadziło do niedokładności i błędów przy odtwarzaniu kopii. OCR jest często wykorzystywany jako "ukryta" technologia w wielu znanych systemach i usługach związanych z automatyzacją wprowadzania danych i indeksowaniem dla wyszukiwarki, automatyczne rozpoznawanie znaków optycznych na tablicach rejestracyjnych, a także pomoc dla osób niewidomych i niedowidzących.

Proces określania poprawności tekstu

Każdy etap procesu OCR jest ważny dla określenia dokładności tekstu końcowego. Zaczyna się od konwersji wydrukowanego dokumentu. Jeśli zawiera on ślady, smugi lub jest mało kontrastowy, oprogramowanie rozpoznające popełni błędy i wynik nie będzie prawidłowy. Aby uniknąć tych problemów, można wykonać wzmocnioną fotokopię odbitki.

Pierwszym krokiem jest zeskanowanie wydrukowanego tekstu. Oprogramowanie OCR działa na plikach graficznych. Skaner lub dobry aparat cyfrowy wykonuje wyraźne kserokopie dokumentów. Lepiej jest konwertować zeskanowane pliki w czerni i bieli. Proces jest binarny. Dzięki czerni na obrazie tekst OCR jest rozpoznawany, a biel pełni rolę tła.

Drugim krokiem jest określenie postaci. Szybkość procesu zależy od zastosowanego oprogramowania OCR. Większość z nich analizuje każdy element po kolei. Celem aplikacji jest identyfikacja znaków, ale dobre programy rozpoznają nie tylko tekst, ale także tabele i inne elementy układu graficznego.

Proces ten nie jest doskonały, więc rzeczywiście wiele czynników wpływających na dokładność. Jakie programy są przeznaczone dla OCR opisano poniżej. I to do użytkownika należy wybór, co jest lepsze. OCR mają wbudowane funkcje sprawdzania pisowni i podkreślają błędnie napisane słowa. Niektóre z nich są tak złożone, że sygnalizują niespójności w słowach i błędy gramatyczne, użytkownik musi tylko dokonać niezbędnych poprawek.

Ostatnim krokiem jest zapisanie gotowego dokumentu w wybranym formacie. Jeśli aplikacja nie wytwarza wymaganego, można skorzystać z licznych darmowych konwektorów online.

Technologia optyczna dla brajla

Technologia optycznego rozpoznawania znaków (OCR) daje osobom niewidomym lub niedowidzącym możliwość rozpoznawania tekstu i wypowiadania go na głos. Wykorzystuje on wyjście głosowe, a także wyświetla informacje na wyświetlaczu brajlowskim.

W systemach optycznego rozpoznawania znaków wyróżnia się trzy podstawowe elementy: akwizycję obrazu, rozpoznawanie i odczyt tekstu. Najpierw aparat rejestruje wydrukowany dokument, następnie oprogramowanie OCR przetwarza go na rozpoznane znaki i słowa, a potem syntezator w systemie wypowiada na głos zdefiniowany materiał lub wyświetla go w brajlu. Informacje mogą być przechowywane w formacie elektronicznym na urządzeniu z oprogramowaniem OCR lub w pamięci samodzielnego urządzenia.

W procesie tym uwzględnia się logiczną strukturę języka. System wnioskuje, że np. spójnik "to" na początku zdania jest błędem i powinien być odczytany jako "to". Wykorzystuje leksykon i metody sprawdzania pisowni podobne do tych stosowanych w wielu programach typu word-processing.

Wszystkie systemy OCR tworzą pliki tymczasowe zawierające znaki i układ strony. W niektórych systemach mogą być one konwertowane na formaty, które można znaleźć za pomocą powszechnie używanych aplikacji komputerowych, takich jak edytory tekstu, arkusze kalkulacyjne i bazy danych.

Wybór oprogramowania OCR

Wybór oprogramowania do rozpoznawania tekstu

Zaleca się świadome podejście do wybór oprogramowania Oprogramowanie do rozpoznawania tekstu. Lepiej zrobić własne testy lub wziąć pod uwagę opinie zaawansowanych użytkowników.

Podczas procesu testowania brane są pod uwagę następujące czynniki:

Dokładność jest tym, co odróżnia dobre OCR od złego. Niemniej jednak, nierealistyczne jest oczekiwanie 100% dokładności od aplikacji do rozpoznawania pisma ręcznego. Czynniki takie jak jakość oryginalne dokumenty i rozdzielczość obrazu mają znaczący wpływ na wynik końcowy. Dobry OCR osiąga do 98% przy użyciu nowoczesnego skanera i źródeł w zadowalającym stanie.
Możliwość pracy w wielu językach - obecnie większość oprogramowania posiada tę funkcję. OCR skanuje pojedynczy znak, aby go zidentyfikować. Jeśli urządzenie jest zaprojektowane do rozpoznawania tylko angielskich liter, nie będzie w stanie dokładnie zinterpretować znaków specjalnych, takich jak akcentowane litery w "е". Takie oprogramowanie reprezentowałoby te znaki z najbliższym angielskim odpowiednikiem. W przypadku korzystania z aplikacji obsługującej wielojęzyczność należy określić język dokumentu, aby zapewnić dokładność rozpoznawania.
Obsługa pisma ręcznego. Tekst z klawiatury jest łatwo rozpoznawany przez każdy program. Jednak pismo ręczne to zupełnie inna metoda skanowania. Ludzie mają bardzo różne pisma. Jedni piszą zgrabnie, a inni nie jak większość.. pismo ręczne nie jest wystarczająco czytelne. Wysokiej jakości OCR potrafi rozpoznać każde pismo ręczne. Dlatego też w celu archiwizacji materiałów pisanych odręcznie, programy do pisania odręcznego.
Poziom automatyzacji. OCR może być uruchamiany automatycznie lub interaktywnie. Jeśli trzeba zeskanować wiele stron naraz, należy rozważyć programy automatyczne. Dzięki takiej funkcji można skanować dokumenty kilkoma kliknięciami podczas wykonywania innych zadań i łatwo znaleźć wynikowy plik PDF, txt lub doc. Większość darmowego oprogramowania OCR ma ograniczoną automatyzację.
Zapisywanie układu. Głównym celem tych programów jest konwersja tekstu na postać elektroniczną. Niektóre nie zachowują układu oryginalnego dokumentu. Więc długo trwa edycja ostatecznej wersji. Dobry program powinien zapisać oryginalny układ, wtedy w ostatecznej kopii nie potrzeba wiele edycji. Takie aplikacje zapisują kolumny, tabele i grafiki tak jak w wersji oryginalnej.

Popularne oprogramowanie dla urządzeń mobilnych

OCR jest doskonały do przekształcania tekstu z fizycznych źródeł bezpośrednio w dokument cyfrowy. Istnieją różne rodzaje programów i aplikacji dla komputera stacjonarnego i urządzeń mobilnych. Różnią się one ceną i mają swoje kluczowe cechy wyróżniające.

Najpopularniejsze "Android"-skanery:

Office Lens - udostępnia bezpłatnie skanowanie stron i OCR dla użytkowników systemu Android. Wymaga połączenia internetowego do konwersji.
Skanery PDF (np. ABBYY TextGrabber, CamScanner, MDScan, OCR Instantly) - wykonują skany, a następnie OCR. Brak limitu liczby skanowanych stron i brak znaków wodnych.
OCR online. Można go znaleźć w sieci, usługa jest bardzo prosta i łatwa w obsłudze. Wyróżnia się tym, że obsługuje 46 języków, dokument wyjściowy waży nie więcej niż 5 MB, jest łatwy do konwersji do formatu Microsoft Word, Excel lub zwykłego tekstu. Po rejestracji możesz konwertować wielostronicowe pliki PDF, RTF, Excel i pliki o rozmiarze do 100 MB. Dla większych ilości rozpoznań dostępna jest wersja płatna.

Dokumenty Google

Dla tych, którzy są już zaznajomieni z Google Docs, możesz użyć OCR wbudowanego w Google Drive. Aby uzyskać najlepsze wyniki, czcionka powinna być ustawiona na Arial lub Times New Roman. Można poprawić wyniki, upewniając się, że skanowany obraz jest równomiernie oświetlony i ma ostry kontrast. Zdjęcia mogą być przetwarzane indywidualnie w plikach jpg, png, gif lub wielostronicowych plikach PDF. Większość języków jest obsługiwana.

Google jest wiele programy edukacyjne i możliwości przetwarzania w chmurze. Wielu użytkowników uważa, że serwisowi brakuje zaawansowanych funkcji i opcji. Jeśli jednak korzystasz z aplikacji Google Drive dla Androida, możesz skanować strony bezpośrednio z aplikacji za pomocą aparatu w smartfonie. W przeciwnym razie pobierz dokumenty za pomocą skanera podłączonego do komputera lub w inny sposób, aby rozpocząć przetwarzanie OCR w Google Drive. Dla osób prywatnych Google Drive oferuje darmowy poziom pamięci masowej o pojemności około 19 GB z możliwością rozszerzenia do 100 GB za pośrednictwem Google One za 1,99 USD. USA.

Rozpoznawanie optyczne Abbyy

Abbyy FineReader pracuje z dokumentami od dawna. To kompletne rozwiązanie zarówno dla firm, jak i konsumentów. Oferuje wszystkie funkcje, których potrzebujesz, aby odzyskać zawartość tekstową ze skanera z pełną czytelnością, uporządkowaną zdigitalizowaną zawartość. Oprócz rozpoznawania tekstu i konwersji do formatu PDF, Microsoft Office lub innych, program może również porównywać teksty, dodawać adnotacje i komentarze.

Abbyy FineReader może konwertować materiały w trybie wsadowym i przetwarzać wiele formatów wyjściowych w 192 różnych językach. Istnieją towarzyszące aplikacje mobilne, gdy trzeba zrobić szybkie skanowanie z telefonu.

Oprogramowanie nie jest najnowocześniejsze, ale jest proste, funkcjonalne i dobrze spełnia swoje zadanie. Narzędzie ma silną reputację jako jedna z najlepszych opcji OCR. Dostępna jest bezpłatna wersja próbna. Koszt oprogramowania od 199,99 dolarów. Koszt standardowej jednorazowej licencji bezterminowej.

Jeśli ktoś uważa, że to droga opcja, może skorzystać z dobrej alternatywy dla ABBYY FineReader - wersji online. Jest on ograniczony, ponieważ pozwala na skanowanie tylko 10 stron miesięcznie. Ale posiada wszystkie inne funkcje wersji premium. Wymaga rejestracji, aby uzyskać dostęp. Obsługuje tak wiele formatów plików wejściowych i można wybrać formaty wyjściowe, takie jak PDF, Word, Excel, PowerPoint i e-Pub.

Usługa Adobe Acrobat w chmurze

Adobe Acrobat spełnia wszystkie wymagania i oferuje imponującą listę funkcji i opcji, choć cena jest nieco wyższa niż u konkurencji. Dla wszystkich funkcji OCR wybrano wersję Pro programu Adobe Acrobat. DC to skrót od "Document Cloud", który dość płynnie integruje się z rozwiązaniem Adobe opartym na chmurze, jeśli potrzebujesz dostępu do swoich plików z dowolnego komputera. Istnieje również łatwa i płynna integracja z wszystkimi innymi usługami firmy Adobe, takimi jak Photoshop.

Jeśli użytkownik zdecyduje się zapłacić za wersję Pro programu Adobe Acrobat DC, otrzyma wszystkie narzędzia do rozpoznawania tekstu, możliwość dodawania komentarzy i opinii do treści, dedykowaną usługę skanowania tabel, możliwość szybkiego porównania dwóch dokumentów razem. Materiały mogą być edytowane bezpośrednio na ekranie kilka sekund po zeskanowaniu.

Znak Adobe gwarantuje określony poziom jakości, a użytkownicy są pod wrażeniem intuicyjności i możliwości programu Adobe Acrobat DC. Subskrypcja zaczyna się od 12,99$. USD.

Najlepsze darmowe oprogramowanie

Free OCR to Word to najlepsze darmowe oprogramowanie OCR, wykorzystujące najnowsze mechanizmy. Tesseract jest najpotężniejszym narzędziem dla tego typu oprogramowania i jest uważany za jedną z najdokładniejszych metod. Oprogramowanie obsługuje kilka formatów obrazów i TIFF kilku stron. Z usługi tej można skorzystać całkowicie bezpłatnie, aby wyodrębnić tekst z przesłanego materiału fotograficznego.

Silnik Tesseract został pierwotnie opracowany przez Hewlett Packard Labs w latach 1985-1994. Pewne zmiany wprowadzono do niej w 1996 r. W 1995 roku znalazł się w pierwszej trójce silników rozpoznawczych. Działa z systemami Windows, Linux i Mac OS X. FreeOCR może przetwarzać obrazy z wielokolumnowym i wielojęzycznym tekstem. Obsługuje formaty PDF i obsługuje urządzenia TWAIN, takie jak skanery, ma rozbudowany, dwuokienny interfejs, którego ustawienia są łatwe do zrozumienia.

Darmowy OCR do Worda może zaoszczędzić wiele czasu bez konieczności ponownego wprowadzania już napisanej pracy. Oprogramowanie przyjmuje dokument, zeskanowany obiekt lub obraz i przekształca go w czytelny, edytowalny i dokładny materiał. Oprogramowanie można swobodnie pobrać w formacie Word. Optymalizacja OCR do Worda do obsługi ze wszystkimi typami skanerów i charakteryzuje się dokładnością na poziomie 98%, nowoczesny interfejs, który umożliwia łatwy dostęp do wszystkich zadań, dostępne są funkcje obracania w przypadku, gdy zdjęcie nie mieści się prawidłowo na ekranie. Oprogramowanie wyodrębnia tekst z przechwyconych obrazów za pomocą smartfonów lub aparatów cyfrowych z wysoką dokładnością i jakością.

Rozpoznawanie znaków w systemie Linux

Pakiet OCRFeeder zapewnia przyjazny dla użytkownika interfejs graficzny Linux, który jest w zasadzie front-endem dla niektórych obrazów, OCR i narzędzi tekstowych, takich jak wydruk czy sprawdzanie pisowni. Nie odczytuje on samodzielnie znaków, lecz korzysta z innych aplikacji OCR poprzez tzw. ustawienia "silników rozpoznawczych". Posiada predefiniowane parametry dla Tesseract, CuneiForm, GOCR i Ocrad.

Użytkownik musi jedynie zainstalować w Ubuntu wybrane przez siebie silniki - jeden lub więcej - a następnie zlokalizować je w ustawieniach Feedera. Inne silniki mogą być dodawane i zmieniane te parametry ręcznie. W jednej aplikacji może być kilka różnych silników. Główne okno Feeder pozwala na bieżąco wybierać, który z nich ma być używany dla danego obszaru, jest też opcja wyboru domyślnego. Aby wybrać język czytanego tekstu, w przypadku Tesseract i CuneiForm, należy dodać do ustawień silnika przełącznik "-l" z odpowiednim kodem języka/skryptu, np. "-l pol" dla języka polskiego lub "-l dan-frak" dla języka duńskiego

Technologia optycznego rozpoznawania znaków "Tesseract" początkowo była w stanie rozpoznać tylko tekst w języku angielskim, wersja 2.x uczynił go wielojęzycznym. W razie potrzeby można ustawić więcej niż jeden słownik. Nowe wersje digitalizują tekst w oparciu o ISO 963-2.

Po udanej instalacji należy użyć polecenia "teserakt>ścieżka obrazu>nazwa podstawowa pliku wyjściowego". Tesseract automatycznie da wyjście rozszerzenie dokumentu ".txt", możesz określić opcję "-l", a następnie kod języka. W przypadku wersji Tesseract wcześniejszych niż Tesseract 3, bardzo ważne jest, aby obrazek był w formacie pliku tagów i miał rozszerzenie ".tif", aniżeli ".tiff". Linia poleceń powinna wyglądać tak:"$ tesseract ~ / input.wyjście tif".

Gdzie "wejście.tif" - to dokument do konwersji, znajdujący się w folderze głównym, oraz "wyjście" - materiał, który Tesseract stworzy, jako "wyjście.txt". Często zeskanowane teksty są zapisywane jako obrazy bitmapowe w dużym dokumencie PDF. Za pomocą programu ImageMagick można wyodrębnić poszczególne strony jako pliki TIFF do przetwarzania w programie Tesseract. Poniższy skrypt może pomóc zautomatyzować ten proces.

CuneiForm to kolejny system optycznego rozpoznawania tekstu, pierwotnie opracowany i oparty na otwartym źródle przez Cognitive Technologies. Wersja dla Windows, który ma swój własny interfejs graficzny, może być uruchomiony z niektórymi wynikami w Wine. Jego port dla Linuksa jest rozwijany na Launchpadzie i chociaż obecnie nie posiada własnego GUI, CuneiForm może być z powodzeniem uruchamiany z GUI OCRFeeder.

Oto przykład, jak z powodzeniem przekonwertować kilka obrazów zrzutów ekranu .tablice wiadomości jpeg w Internecie do użytecznych plików tekstowych.

Pdfocr to skrypt, który wykonuje OCR dla wielostronicowych plików PDF i osadza go z powrotem jako wyszukiwalną warstwę tekstową. Może używać "Tesseract" lub pismo klinowe jako mechanizm rozpoznawania. Sam skrypt można uzyskać z Githuba lub PPA. Aby uruchomić polecenie, wpisz w terminalu: "pdfocr -i input.pdf -o wyjście.pdf".

Technologia OCR nie stoi w miejscu, a przyszłość obiecuje inteligentny system optycznego rozpoznawania znaków - ICR. Ten standard jest najnowocześniejszy. Większość ICR posiada samouczący się system, zwany siecią neuronową, który automatycznie aktualizuje bazę danych o nowe próbki pisma. Rozszerza użyteczność urządzeń skanujących do celów przetwarzania dokumentów z rozpoznawania twardych kopii (funkcja OCR) na pismo ręczne i może osiągnąć ponad 97% dokładności w odczytywaniu materiałów pisanych ręcznie w ustrukturyzowanych formach.