Прочитать текст / Read text
Данное действие предназначено для распознавания печатного текста в заданной области и сохранения распознанного текста в переменную.
Настройки
Свойство | Англ. наименование | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
---|---|---|---|---|---|
Параметры | |||||
Изображение | Image | Путь к файлу изображения. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff) | Изображение | Область_текста | Да |
Ожидаемые языки текста на изображении | Expected languages of text in the image | Ожидаемые языки текста на изображении Выпадающий список из значений:
| Строка | Русский язык | Да |
Формат контента | Content format | Ожидаемый формат текста. Доступные форматы текста: (Line, Block, Page) Выпадающий список из значений:
| Строка | Строка | Да |
Параметры | Options | Параметры конфигурации для распознавания текста | Строка | --psm 10 --oem 3 -c tessedit_char_whitelist=0123456789 | Нет |
Результаты | |||||
Результат | Result | Текст (string), который был получен из изображения | Строка |
Особые условия использования
Отсутствуют.
Получить текст из PDF / Read text from PDF
Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.
Настройки
Свойство | Англ. наименование | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
---|---|---|---|---|---|
Параметры | |||||
Источник | Source | Путь к PDF файлу для распознавания. Если тип файла неприменим, будет выведено предупреждение. | Путь к файлу | C:\Users\Документы\1.pdf | Да |
Основной язык | Primary language | Языки, который распознаватель ожидает в тексте. Выпадающий список: Справочник содержит следующие значения:
По умолчанию значение равно "Русский". !!! Реализация списком временная. После подготовки тулзы с возможностью выбрать несколько элементов одновременно (на базе типа Robin.Collection), тип параметра и реализация его ввода будут изменены. | Строка | Русский | Да |
Страница документа | Document page | Номер станицы файла, с которой будет считываться текст. Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат. | Число | 2 | Да |
Результаты | |||||
Результат | Result | Переменная, в которую будет сохранен распознанный текст. Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение. | Строка |
Особые условия использования
Отсутствуют.
Найти страницу в PDF / Find page in PDF
Данное действие предназначено для поиска страницы по введенному значению и получение ее номера.
Настройки
Свойство | Англ. наименование | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
---|---|---|---|---|---|
Параметры | |||||
Путь к файлу | Path to file | Путь к PDF-файлу, страница которого будет использована для распознавания. | Путь к файлу | C:\Users\Документы\1.pdf | Да |
Основной язык | Primary language | Язык, который распознаватель ожидает в тексте. По умолчанию значение равно "Русский". Выпадающий список. Справочник содержит следующие значения:
!!! После появления соответствующей тулзы, пользователь будет иметь возможность выбрать несколько языков. | Коллекция | Русский | Да |
Текст | Text | Текст, который должна содержать страница. | Строка | Загрузить | Да |
Результаты | |||||
Номер страницы | Page number | Переменная, которая будет содержать номера всех найденных страниц. Если страница не будет найдена вывести ошибку: "Не найдена страница, содержащая заданный текст." | Коллекция |
Особые условия использования
Отсутствуют.
Извлечь данные в таблицу / Extract data to table
Группа действий: Распознавание текста
Действие распознает текст с документа, разделяет его на блоки и сохраняет в табличном виде.
Настройки
Свойство | Англ. наименование | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
---|---|---|---|---|---|
Параметры | |||||
Путь к файлу | Path to file | Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf. | Путь к файлу | C:\Users\Документы\1.pdf | Да |
Номер страницы | Page number | Номер страницы в многостраничном документе, данные которой нужно извлечь в таблицу | Число | Нет | |
Язык | Language | Выпадающий список из элементов: Русский язык, Английский язык, Русский и английский языки, Испанский язык, Португальский язык. Значение по умолчанию - Русский и английский языки. Предполагаемый язык текста, который необходимо распознать | Строка | Нет | |
Расстояние между словами | Distance between words | Максимальное расстояние между словами в пикселях для разделения блоков текста на столбцы таблицы. По умолчанию действие использует расстояние в 20 пикселей | Число | Нет | |
Расстояние между строками | Line spacing | Максимальное расстояние между строками в пикселях для разделения блоков текста на строки таблицы. По умолчанию действие использует расстояние в 1 пиксель. | Число | Нет | |
Путь к папке | Folder path | С учетом выбранного расстояния между словами и строками, действие делит распознаваемый текст на блоки. В поле можно указать путь к папке, в которую будет сохранено изображение распознанного текста с наложенными блоками. Для сохранения файла также нужно заполнить поле "Имя файла" | Путь к папке | Нет | |
Имя файла | File name | Название файла изображения с наложенными блоками (без расширения). По умолчанию создается файл с расширением *.png. Для сохранения файла также нужно заполнить поле "Путь к папке" | Строка | Нет | |
Перезаписать | Overwrite | Если значение равно True, и в указанной папке существует файл изображения с таким же именем и расширением, то новый файл его перезапишет. Если False, файл перезаписан не будет и действие вернет ошибку. | Логический | Нет | |
Результаты | |||||
Таблица | Table | Таблица, сформированная на основе текста, извлеченного из исходного документа. | Таблица | ||
Путь к изображению с блоками | Path to image with blocks | Путь к файлу изображения с наложенными блоками. | Путь к файлу |
Особые условия использования
Действие должно распознавать текст с документа и разбивать его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.
На вход можно давать документы:
- только текстовый слой
- только изображения
- и текстовый слой, и изображения.
Работа действия основана алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.
Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст.
Пример распознавания.