Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Результат                                                           Текст (string), который был получен из изображения

Настройки

Свойство
Англ. наименование
ОписаниеТипПример заполненияОбязательность заполнения поля
Параметры

Изображение

Image

Путь к файлу изображения. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff)


Изображение

Область_текстаДа

Ожидаемые языки текста на изображении

Expected languages of text in the image

Ожидаемые языки текста на изображении

Выпадающий список из значений:

  • Русский язык
  • Английский язык
  • Русский и Английский язык
  • Испанский язык
  • Португальский язык


СтрокаРусский языкДа
Формат контента
Content format

Ожидаемый формат текста. Доступные форматы текста: (Line, Block, Page)

Выпадающий список из значений:

  • Строка
  • Блок
  • Страница


Строка

СтрокаДа

Параметры

Options

Параметры конфигурации для распознавания текста

https://muthu.co/all-tesseract-ocr-options/

Строка--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789Нет
Результаты
Результат
Result

Текст (string), который был получен из изображения


Строка



Особые условия использования

...

Список всех параметров: https://muthu.co/all-tesseract-ocr-options/.

ПараметрЗначение по умолчаниюОписание
Основные параметры
oem3
  • 0: Использовать только устаревший движок tesseract
  • 1: Использовать только нейросеть LSTM
  • 2: Использовать одновременно старый движок tesseract и нейросеть LSTM
  • 3: Значение по умолчанию, используется то, что доступно
psm3
  • 0: Обнаружение только ориентации и сценария (OSD)

  • 1: Автоматическая сегментация страниц с помощью экранного меню

  • 2: Автоматическая сегментация страниц, но без OSD или OCR

  • 3: Полностью автоматическая сегментация страниц, но без экранного меню

  • 4: Предположительно, что в тексте один столбец переменных размеров

  • 5: Предположительно, что текст - это единый однородный блок вертикально выровненного текста

  • 6: Изображение рассматривается как один единый блок текста

  • 7: Изображение рассматривается как одна текстовая строка

  • 8: Изображение рассматривается как одно слово

  • 9: Изображение рассматривается как одно слово в круге

  • 10: Изображение рассматривается как один символ

  • 11: Разреженный текст. Поиск как можно больше текста в произвольном порядке

  • 12: Разреженный текст с экранным меню

  • 13: Необработанная строка. Изображение рассматривается как одна текстовая строка, минуя хаки, специфичные для Tesseract

Дополнительные параметры
edges_min_nonhole14Минимальное число пикселей бокса для распознавания
textord_space_size_is_variable0Если задано значение true (1), предполагается, что пробелы разделителей слов имеют переменную ширину, даже если символы имеют фиксированный шаг
textord_tabfind_find_tables1Запустить детектирование таблиц
textord_force_make_prop_words0Применить пропорциональную сегментацию слов во всех строках
textord_width_limit8Максимальная ширина блоков для создания строк
tessedit_pageseg_mode6
  • 0: Только обнаружение ориентации и сценария

  • 1: Автоматический режим + обнаружение ориентации

  • 2: Автоматический режим

  • 3: Обнаружение столбцов

  • 4: Обнаружение блоков

  • 5: Обнаружение строк

  • 6: Обнаружение слов

  • 7: Обнаружение символов

textord_max_noise_size7Максимальный размер шума в пикселях
tessedit_dont_blkrej_good_wds0Если задано значение true (1), используется показатель качества сегментации слов
tessedit_char_blacklist
Черный список символов, которые нельзя распознать
tessedit_char_whitelist
Белый список символов для распознавания
List of chars to override tessedit_char_blacklist
Список символов для переопределения tessedit_char_blacklist

Пример использования

Задача

...