Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

По умолчанию в поле "Параметры" используется режим --psm 3. Все параметры перечисляются через пробел в формате --параметр значение_параметра.

ПараметрЗначение по умолчаниюОписание
Основные параметры
oem3
  • 0: Использовать только устаревший движок tesseract
  • 1: Использовать только нейросеть LSTM
  • 2: Использовать одновлеменно старый движок tesseract и нейросеть LSTM
  • 3: Значение по умолчанию, используется то, что доступно
psm3
  • 0: Обнаружение только ориентации и сценария (OSD)

  • 1: Автоматическая сегментация страниц с помощью экранного меню

  • 2: Автоматическая сегментация страниц, но без OSD или OCR

  • 3: Полностью автоматическая сегментация страниц, но без экранного меню

  • 4: Предположительно, что в тексте один столбец переменных размеров

  • 5: Предположительно, что текст - это единый однородный блок вертикально выровненного текста

  • 6: Изображение рассматривается как один единый блок текста

  • 7: Изображение рассматривается как одна текстовая строка

  • 8: Изображение рассматривается как одно слово

  • 9: Изображение рассматривается как одно слово в круге

  • 10: Изображение рассматривается как один символ

  • 11: Разреженный текст. Поиск как можно больше текста в произвольном порядке

  • 12: Разреженный текст с экранным меню

  • 13: Необработанная строка. Изображение рассматривается как одна текстовая строка, минуя хаки, специфичные для Tesseract

edges_min_nonhole14Минимальное число пикселей бокса для распознавания
textord_space_size_is_variable0Если задано значение true (1), предполагается, что пробелы разделителей слов имеют переменную ширину, даже если символы имеют фиксированный шаг
textord_tabfind_find_tables1Запустить детектирование таблиц
textord_force_make_prop_words0Применить пропорциональную сегментацию слов во всех строках
textord_width_limit8Максимальная ширина блоков для создания строк
tessedit_pageseg_mode6
  • 0: Только обноружение ориентации и сценария

  • 1: Автоматический режим + обнаружение ориентации

  • 2: Автоматический режим

  • 3: Обнаружение столбцов

  • 4: Обнаружение блоков

  • 5: Обнаружение строк

  • 6: Обнаружение слов

  • 7: Обнаружение символов

textord_max_noise_size7Максимальный размер шума в пикселях
tessedit_dont_blkrej_good_wds0Если задано значение true (1), используется показатель качества сегментации слов
tessedit_char_blacklist
Черный список символов, которые нельзя распознать
tessedit_char_whitelist
Белый список символов для распознавания
List of chars to override tessedit_char_blacklist
Список символов для переопределения tessedit_char_blacklist

Пример использования

Задача: прочитать текст на изображении 

...