История страницы
Извлечь данные в таблицу Версия
...
8 (Python)
Группа действий: Robin OCR
...
Иконка действия
Параметры и их настройки
Свойство | Описание | Тип | Пример заполнения | Обязательность заполнения поля | |
Параметры | |||||
Файл | Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf | Robin.FilePath | Да | ||
Номер страницы | Номер страницы файлав документе, с которой нужно извлечь данные. Если поле не заполнено, данные будут извлечены со всех страниц | Robin.Numeric | Нет | ||
Язык | Предполагаемый язык текста, который необходимо извлечь. Выбирается из выпадающего списка: | По умолчанию английский. Robin.String | Нет | ||
Дополнительный язык | Дополнительный язык, на котором предположительно может быть распознаваемый текст. Выбирается из выпадающего списка: | Robin.String | Нет | ||
Алгоритм Формат данных, которые действие должно распознать. Если выбрано "Таблица" или "Текст и таблица", текст из таблиц будет возвращен с учетом табличной разметки Выпадающий список из элементов: Текст, Таблица, Текст и таблица | Если выбран «Текст», действие распознает только текстовые данные. Если «Таблица», действие распознает только табличные данные. Если «Текст и таблица», действие распознает любые данные | Robin.String | Да | ||
Расстояние между словами | Максимальное расстояние между словами в текстетекстовых данных документа. Используется при делении исходного для деления текста на столбцы для результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблицв результирующей таблице. Значение по умолчанию - 20 пикселей | Robin.Numeric | Нет | ||
Расстояние между строками | Максимальное расстояние между строками в текстетекстовых данных документа. Используется при делении исходного для деления текста на строки для в результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблиц. таблице. Значение по умолчанию - 1 пикселейпиксель | Robin.Numeric | Нет | ||
Путь к папке | Путь к папке, в которую будут будет сохранено изображение исходного текста страницы документа с наложенными блоками, на которые его делит действие для распознаванияразделило данные. Для сохранения файла также нужно заполнить поле "Имя файла"«Имя файла» | Robin.FolderPath | C:\doc\img | Нет | |
Имя файла | Название изображения исходного текста страницы документа с наложенными блоками (без расширения). Изображение будет создано с расширением *.png. Если действие извлекает текст данные с нескольких страниц, то на каждую из них будет создано свое изображениесоздан отдельный файл, к названию которого будет добавлен индекс. Для сохранения файла также нужно заполнить поле "Путь «Путь к папке"папке» | Robin.String | Нет | ||
Перезаписать | Если значение "true"«true», и в указанной папке существует изображение файл изображения с таким же именем, индексом и расширением, то новое изображение с блоками новый файл его перезапишет. Если "false", изображение перезаписано «false», файл перезаписан не будет , и действие вернет ошибку | Robin.Boolean | true | Нет | |
Параметры | Дополнительные параметры, влияющие на результат и качество распознавания текста | Robin.String | Нет | ||
Подписать | Если значение "true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет. Если "false", изображение перезаписано не будет, и действие вернет ошибку«true», то перед каждой распознанной табличной или текстовой частью будет добавлено слово «Part» c порядковым номером этой части. Если значение «false», перед этими частями будет вставлена пустая строка | Robin.Boolean | true | Нет | |
Обученная модель | Файл с обученной моделью Tesseract в формате .tessdatatraineddata | Robin.FilePath |
| Нет | |
Результаты | |||||
Таблица | Таблица, сформированная на основе данных, извлеченных из исходного | файла.документа | Robin.DataTable | ||
Изображение с блоками | Коллекция путей к | изображениямфайлам изображений страниц документа с наложенными блоками | Robin.Collection |
Особые условия использования
...
Обзор
Инструменты контента