Прочитать текст

Прочитать текст Версия 11 (Python)

Группа действий: Распознавание текста

Описание

Действие позволяет распознать и прочитать текст с изображения.

Иконка действия

Параметры и их настройки

Свойство	Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры
Изображение	Путь к PDF-файлу, страница которого будет использована для распознавания. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff)	Robin.FilePath		Да
Язык	Ожидаемый язык текста в PDF-файле Выпадающий список из элементов: Русский Английский Вьетнамский Арабский Испанский Португальский Индонезийский Персидский Турецкий Казахский Белорусский Значение по умолчанию – Русский	Robin.String	Русский язык	Да
Дополнительный язык	Дополнительный язык, необходимый для распознавания документа. Выпадающий список из элементов: Нет Русский Английский Вьетнамский Арабский Испанский Португальский Индонезийский Персидский Турецкий Казахский Белорусский Значение по умолчанию – Нет Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык Если обученная модель не работает или плохо натренирована, то необходимо значения выпадающего списка "Язык" заменить, продублировав значения списка "Дополнительный язык".	Robin.String		Нет
Параметры	Параметры конфигурации для распознавания текста https://muthu.co/all-tesseract-ocr-options/	Robin.String	--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789
Обученная модель	Файл с обученной моделью Tesseract в формате .taineddata. Позволяет загрузить собственную модель, натренированную на необходимые шрифты. Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык"
Результаты
Результат	Текст (string), который был получен из изображения	Robin.String

Особые условия использования

По умолчанию в поле "Параметры" используется режим --psm 3.

Все параметры перечисляются через пробел в формате --параметр значение_параметра.

Список всех параметров: https://muthu.co/all-tesseract-ocr-options/.

Параметр	Значение по умолчанию	Описание
Основные параметры
oem	3	0: Использовать только устаревший движок tesseract 1: Использовать только нейросеть LSTM 2: Использовать одновременно старый движок tesseract и нейросеть LSTM 3: Значение по умолчанию, используется то, что доступно
psm	3	0: Обнаружение только ориентации и сценария (OSD) 1: Автоматическая сегментация страниц с помощью экранного меню 2: Автоматическая сегментация страниц, но без OSD или OCR 3: Полностью автоматическая сегментация страниц, но без экранного меню 4: Предположительно, что в тексте один столбец переменных размеров 5: Предположительно, что текст - это единый однородный блок вертикально выровненного текста 6: Изображение рассматривается как один единый блок текста 7: Изображение рассматривается как одна текстовая строка 8: Изображение рассматривается как одно слово 9: Изображение рассматривается как одно слово в круге 10: Изображение рассматривается как один символ 11: Разреженный текст. Поиск как можно больше текста в произвольном порядке 12: Разреженный текст с экранным меню 13: Необработанная строка. Изображение рассматривается как одна текстовая строка, минуя хаки, специфичные для Tesseract
Дополнительные параметры
edges_min_nonhole	14	Минимальное число пикселей бокса для распознавания
textord_space_size_is_variable	0	Если задано значение true (1), предполагается, что пробелы разделителей слов имеют переменную ширину, даже если символы имеют фиксированный шаг
textord_tabfind_find_tables	1	Запустить детектирование таблиц
textord_force_make_prop_words	0	Применить пропорциональную сегментацию слов во всех строках
textord_width_limit	8	Максимальная ширина блоков для создания строк
tessedit_pageseg_mode	6	0: Только обнаружение ориентации и сценария 1: Автоматический режим + обнаружение ориентации 2: Автоматический режим 3: Обнаружение столбцов 4: Обнаружение блоков 5: Обнаружение строк 6: Обнаружение слов 7: Обнаружение символов
textord_max_noise_size	7	Максимальный размер шума в пикселях
tessedit_dont_blkrej_good_wds	0	Если задано значение true (1), используется показатель качества сегментации слов
tessedit_char_blacklist		Черный список символов, которые нельзя распознать
tessedit_char_whitelist		Белый список символов для распознавания
List of chars to override tessedit_char_blacklist		Список символов для переопределения tessedit_char_blacklist

Пример использования

Задача

Прочитать текст на изображении.

Решение

Воспользоваться действием "Прочитать текст".

Реализация

Перенести действие "Прочитать текст" на рабочую область.
Настроить параметры действия "Прочитать текст":
1. Параметр "Изображение". Указать путь к файлу изображения, текст которого будет распознаваться.
2. Параметр "Ожидаемые языки текста на изображении". Выбрать ожидаемые языки текса, находящегося на изображении. Для выбора доступны: "Русский язык", "Английский язык", "Русский и Английский язык", "Испанский язык", "Португальский язык". В данном случае - "Русский язык".
3. Параметр "Формат контента". Выбрать ожидаемый формат текста. Для выбора доступны: "Строка", "Блок", "Страница". В данном случае - "Строка".
4. "Результат". Текст, полученный в ходе распознавания текста из изображения. Записываем результат в переменную "Текст".
Нажать на кнопку "Старт" в верхней панели.

Результат

Программный робот отработал успешно. Текст считан с изображения.

Дерево страниц