Прочитать текст / Read text

Данное действие предназначено для распознавания печатного текста в заданной области и сохранения распознанного текста в переменную.

Настройки

Свойство	Англ. наименование	Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры
Изображение	Image	Путь к файлу изображения. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff)	Изображение	Область_текста	Да
Ожидаемые языки текста на изображении	Expected languages of text in the image	Ожидаемые языки текста на изображении Выпадающий список из значений: Русский язык Английский язык Русский и Английский язык Испанский язык Португальский язык	Строка	Русский язык	Да
Формат контента	Content format	Ожидаемый формат текста. Доступные форматы текста: (Line, Block, Page) Выпадающий список из значений: Строка Блок Страница	Строка	Строка	Да
Параметры	Options	Параметры конфигурации для распознавания текста	Строка	--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789	Нет
Результаты
Результат	Result	Текст (string), который был получен из изображения	Строка

Особые условия использования

Отсутствуют.

Получить текст из PDF / Read text from PDF

Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Настройки

Свойство	Англ. наименование	Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры
Источник	Source	Путь к PDF файлу для распознавания. Если тип файла неприменим, будет выведено предупреждение.	Путь к файлу	C:\Users\Документы\1.pdf	Да
Основной язык	Primary language	Языки, который распознаватель ожидает в тексте. Выпадающий список: Справочник содержит следующие значения: Русский - Russian; Английский - English; Русский и Английский; По умолчанию значение равно "Русский". !!! Реализация списком временная. После подготовки тулзы с возможностью выбрать несколько элементов одновременно (на базе типа Robin.Collection), тип параметра и реализация его ввода будут изменены.	Строка	Русский	Да
Страница документа	Document page	Номер станицы файла, с которой будет считываться текст. Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат.	Число	2	Да
Результаты
Результат	Result	Переменная, в которую будет сохранен распознанный текст. Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение.	Строка

Особые условия использования

Отсутствуют.

Найти страницу в PDF / Find page in PDF

Данное действие предназначено для поиска страницы по введенному значению и получение ее номера.

Настройки

Свойство	Англ. наименование	Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры
Путь к файлу	Path to file	Путь к PDF-файлу, страница которого будет использована для распознавания.	Путь к файлу	C:\Users\Документы\1.pdf	Да
Основной язык	Primary language	Язык, который распознаватель ожидает в тексте. По умолчанию значение равно "Русский". Выпадающий список. Справочник содержит следующие значения: Russian - русский; English - английский; Русский и Английский; !!! После появления соответствующей тулзы, пользователь будет иметь возможность выбрать несколько языков.	Коллекция	Русский	Да
Текст	Text	Текст, который должна содержать страница.	Строка	Загрузить	Да
Результаты
Номер страницы	Page number	Переменная, которая будет содержать номера всех найденных страниц. Если страница не будет найдена вывести ошибку: "Не найдена страница, содержащая заданный текст."	Коллекция

Особые условия использования

Отсутствуют.

Извлечь данные в таблицу / Extract data to table

Группа действий: Распознавание текста

Действие распознает текст с документа, разделяет его на блоки и сохраняет в табличном виде.

Настройки

Свойство	Англ. наименование	Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры
Путь к файлу	Path to file	Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf.	Путь к файлу	C:\Users\Документы\1.pdf	Да
Номер страницы	Page number	Номер страницы в многостраничном документе, данные которой нужно извлечь в таблицу	Число		Нет
Язык	Language	Выпадающий список из элементов: Русский язык, Английский язык, Русский и английский языки, Испанский язык, Португальский язык. Значение по умолчанию - Русский и английский языки. Предполагаемый язык текста, который необходимо распознать	Строка		Нет
Расстояние между словами	Distance between words	Максимальное расстояние между словами в пикселях для разделения блоков текста на столбцы таблицы. По умолчанию действие использует расстояние в 20 пикселей	Число		Нет
Расстояние между строками	Line spacing	Максимальное расстояние между строками в пикселях для разделения блоков текста на строки таблицы. По умолчанию действие использует расстояние в 1 пиксель.	Число		Нет
Путь к папке	Folder path	С учетом выбранного расстояния между словами и строками, действие делит распознаваемый текст на блоки. В поле можно указать путь к папке, в которую будет сохранено изображение распознанного текста с наложенными блоками. Для сохранения файла также нужно заполнить поле "Имя файла"	Путь к папке		Нет
Имя файла	File name	Название файла изображения с наложенными блоками (без расширения). По умолчанию создается файл с расширением *.png. Для сохранения файла также нужно заполнить поле "Путь к папке"	Строка		Нет
Перезаписать	Overwrite	Если значение равно True, и в указанной папке существует файл изображения с таким же именем и расширением, то новый файл его перезапишет. Если False, файл перезаписан не будет и действие вернет ошибку.	Логический		Нет
Результаты
Таблица	Table	Таблица, сформированная на основе текста, извлеченного из исходного документа.	Таблица
Путь к изображению с блоками	Path to image with blocks	Путь к файлу изображения с наложенными блоками.	Путь к файлу

Особые условия использования

Действие должно распознавать текст с документа и разбивать его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.

На вход можно давать документы:

только текстовый слой
только изображения
и текстовый слой, и изображения.

Работа действия основана алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.

Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст.

Пример распознавания.

Дерево страниц

Tesseract OCR

Прочитать текст / Read text

Настройки

Особые условия использования

Получить текст из PDF / Read text from PDF

Настройки

Особые условия использования

Найти страницу в PDF / Find page in PDF

Настройки

Особые условия использования

Извлечь данные в таблицу / Extract data to table

Настройки

Особые условия использования