Состоялся релиз открытой системы распознавания текста Tesseract 5.5.0. Проект поддерживает Unicode и работает с более чем 100 языками.
Итоговый результат распознавания может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV.
Решение развивается при участии работников компании Google. Исходный код проекта написан на языке программирования C++ и опубликован на GitHub под лицензией Apache 2.0.Предыдущая стабильная версия Tesseract 5.4.1 вышла в июне этого года.
Читать на habr.com