История страницы
...
Read text Version 11 (Python)
Группа действий: Распознавание текста
Описание
Действие выполняет распознавание текста на изображении и возвращает его в качестве результата
Иконка
Параметры
Входные параметры
...
Action group: Text recognition
...
Description
The action performs text recognition on the image and returns it as a result
Action icon
Settings
Property | Description | Type | Filling example | Mandatory field |
---|---|---|---|---|
Parameters | ||||
Image | Path to image file. Supported image formats: (jpeg, jpg, bmp, png, tif, tiff) |
...
Ожидаемые языки текста на изображении - Ожидаемые языки текста на изображении
...
Формат контента - Ожидаемый формат текста. Доступные форматы текста: (Line, Block, Page)
...
Параметры - Параметры конфигурации для распознавания текста.
Robin.Image | C:\doc\img.png | Yes | ||
Expected languages of text in the image | Expected languages of text in the image Expected languages of the text in the PDF file A dropdown list of items:
Default value - Russian | Robin.String | Yes | |
Additional language | An additional language required for document recognition A dropdown list of items:
The default value is No If the same option is selected in the "Language" and "Additional Language" parameters, there will be no error. The duplicate will be counted as 1 language | Robin.Collection | No | |
Content format | Expected text content format. Available text formats |
Выходные параметры
Возвращает текст (string), который был получен из изображения.
Настройки
Изображение
Image
Путь к файлу изображения. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff)
Изображение
Ожидаемые языки текста на изображении
Expected languages of text in the image
Ожидаемые языки текста на изображении
Выпадающий список из значений:
- Русский язык
- Английский язык
- Русский и Английский язык
- Испанский язык
- Португальский язык
Content format
: (Line, Block, Page) |
Выпадающий список из значений:
- Строка
- Блок
- Страница
Строка
Параметры
Options
Параметры конфигурации для распознавания текста
Текст (string), который был получен из изображения
Строка
Особые условия использования
По умолчанию в поле "Параметры" используется режим --psm 3.
Все параметры перечисляются через пробел в формате --параметр значение_параметра.
Robin.String | Yes | |||
Trained model | Tesseract trained model file in .taineddata format. Allows you to load your own model trained on the required fonts. If the parameter is populated, it will be prioritized over the "Language" and "Additional language" parameters | |||
Options | Configuration options for OCR) | Robin.String | No | |
Results | ||||
---|---|---|---|---|
Result | Text (string) recognized from image | Robin.String |
Special conditions of use
The default mode in the "Parameters" field is --psm 3.
All parameters are listed with a space in the format --parameter value_parameter.
List of all parameters: Список всех параметров: https://muthu.co/all-tesseract-ocr-options/.
Parameter | Default value | Description |
---|---|---|
Main parameters |
oem | 3 |
|
|
|
|
| ||
psm | 3 |
|
|
|
|
4: Предположительно, что в тексте один столбец переменных размеров
5: Предположительно, что текст - это единый однородный блок вертикально выровненного текста
6: Изображение рассматривается как один единый блок текста
7: Изображение рассматривается как одна текстовая строка
8: Изображение рассматривается как одно слово
9: Изображение рассматривается как одно слово в круге
10: Изображение рассматривается как один символ
11: Разреженный текст. Поиск как можно больше текста в произвольном порядке
12: Разреженный текст с экранным меню
13: Необработанная строка. Изображение рассматривается как одна текстовая строка, минуя хаки, специфичные для Tesseract
| ||
Additional parameters |
edges_min_nonhole | 14 |
Minimum number of box pixels to recognize | |
textord_space_size_is_variable | 0 |
If true (1) |
is set, word delimiter spaces are assumed to be of variable width, even if the characters are of fixed pitch | |
textord_tabfind_find_tables | 1 |
Launch table detection | |
textord_force_make_prop_words | 0 |
Apply proportional word segmentation to all strings | |
textord_width_limit | 8 |
Maximum width of blocks for creating rows | ||
tessedit_pageseg_mode | 6 |
|
|
|
|
|
|
|
|
| |
textord_max_noise_size | 7 |
Maximum noise size in pixels | |
tessedit_dont_blkrej_good_wds | 0 |
If true (1) |
is set, the word segmentation quality score is used |
tessedit_char_blacklist |
Blacklisting characters that cannot be recognized | |
tessedit_char_whitelist |
White list of characters to recognize | |
List of chars to override tessedit_char_blacklist |
List of symbols to override tessedit_char_blacklist |
Пример использования
Задача
Example of use
Task
Read the text in the image Прочитать текст на изображении
...
Solution
Воспользоваться действием "Прочитать текст"
Реализация
Use the "Read text" action
Implementation
- Transfer the "Read text" action to the workspaceПеренести действие "Прочитать текст" на рабочую область.
- Настроить параметры действия "Прочитать текст"
- Параметр "Изображение". Указать путь к файлу изображения, текст которого будет распознаваться.
- Параметр "Ожидаемые языки текста на изображении". Выбрать ожидаемые языки текса, находящегося на изображении. Для выбора доступны: "Русский язык", "Английский язык", "Русский и Английский язык", "Испанский язык", "Португальский язык". В данном случае - "Русский язык".
- Параметр "Формат контента". Выбрать ожидаемый формат текста. Для выбора доступны: "Строка", "Блок", "Страница". В данном случае - "Строка".
- "Результат". Текст, полученный в ходе распознавания текста из изображения. Записываем результат в переменную "Текст"
2. Нажать на кнопку "Старт" в верхней панели.
Результат
- Set the parameters of the "Read text" action
- "Image" parameter. Specify the path to the image file, the text of which will be recognized.
- Parameter "Expected languages of text in the image". Select the expected languages of the text in the image. The following languages are available for selection: "Russian language", "English language", "Russian and English language", "Spanish language", "Portuguese language". In this case, it is "Russian language".
- "Content format" parameter. Select the expected text format. The following are available for selection: "Line", "Block", "Page". In this case - "Line".
- "Result". The text obtained during text recognition from the image. Write the result to the "Text" variable.
2. Click on the "Start" button in the top panel.
Result
The program robot completed successfully. The text is read from the imageПрограммный робот отработал успешно. Текст считан с изображения.