HOCR (software)

HOCR (software)

Infobox Software
name = HOCR



caption =
author = Yaacov Zamir
developer =
released =
latest release version =
latest release date =
latest preview version =
latest preview date =
programming language = C, Python and C++
operating system = Linux and (unofficially) Mac OS X
platform =
language =
status =
genre = Optical character recognition
license = GPL v3.0
website = http://hocr.berlios.de
In computer software, HOCR is a free Hebrew optical character recognition software. It is based on the libhocr Hebrew optical character recognition engine. Logo graphics by Shlomi Israel.

About the libhocr OCR Engine

libhocr is a GNU Hebrew optical character recognition engine. It is designed for use with old yellow stained Hebrew poetry and religious texts. libhocr includes an image processing unit to remove yellow stains and fix page images. libhocr can understand complex page layouts frequent in old religious texts (Talmud pages). libhocr can read and understand Nikud, understanding Nikud is essential for Hebrew poetry optical character recognition.

libhocr can use the GTK toolkit to load images. It can load png, jpeg, tiff, bmp, pnm and any other image format supported by GTK. libhocr can automatically fix stained, dark, bright and rotated images.

libhocr outputs the recognized text using UTF-8 encoding. It can output the text as plain text or using Google's hocr html format for OCR output.

User interfaces

HOCR includes two user interfaces. A graphical user interface and a command line tool.

* hocr-gtk is a graphical user interface built using GTK and Python. It is a simple easy to use user interface. Interface designed by Yuval Tanny.

hocr can process old yellow stained images and rotated texts.

hocr can undestand texts with Nikud.

* hocr is a command line tool. It is a more powerful tool designed for automation of the OCR process.

See also

*Document Layout Analysis


Wikimedia Foundation. 2010.

Игры ⚽ Поможем сделать НИР

Look at other dictionaries:

  • HOCR (Software) — HOCR Basisdaten Entwickler …   Deutsch Wikipedia

  • HOCR — bezeichnet: einen offenen Standard, der ein Datenformat für Texterkennungsergebnisse beschreibt, siehe hOCR (Standard) eine Texterkennungssoftware für hebräische Schrift, siehe HOCR (Software) Diese Seite ist eine Begriffsklärung …   Deutsch Wikipedia

  • hOCR (Standard) — hOCR ist ein offener Standard, der ein Datenformat beschreibt, das der Repräsentation von Texterkennungsergebnissen dient. Mit diesem Format lassen sich zusätzlich zum Text dessen Layout, Erkennungsgenauigkeit, Formatierungen und andere… …   Deutsch Wikipedia

  • Tesseract (Software) — Tesseract Maintainer Ray Smith u.a. Aktuelle Version 3.00.1 (5. Nov. 2010) Betriebssystem Windows, Linux, Mac OS X Programmier­sprache …   Deutsch Wikipedia

  • CuneiForm — Entwickler Cognitive Technologies Aktuelle Version 0.1.0 (14. Februar 2009) Betriebssystem Windows (Linux und FreeBSD Portierungen verfügbar) Kategorie …   Deutsch Wikipedia

  • OCRFeeder — Developer(s) Joaquim Rocha (Igalia) …   Wikipedia

  • OCRopus — Developer(s) Thomas Breuel, DFKI Initial release 9 April 2007[1] Preview release 0.4.4 (alpha) / May 1, 2010; 18 months ago (2010 05 01 …   Wikipedia

  • OCRopus — Эта статья или её секция содержит информацию о программном обеспечении, которое в данный момент находится в разработке. Содержимое статьи может значительно измениться в ходе разработки ПО …   Википедия

  • OCROpus — Entwickler: Thomas Breuel, DFKI Aktuelle Version: 0.3.1 (16. Oktober 2008) Betriebssystem: Linux Kateg …   Deutsch Wikipedia

  • Ocropus — Entwickler: Thomas Breuel, DFKI Aktuelle Version: 0.3.1 (16. Oktober 2008) Betriebssystem: Linux Kateg …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”