Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Извлечь данные в таблицу таблицу Версия 6 (Python)

Группа действий: Robin OCR 

...

Описание

Действие распознает текст с документа, разделяет его на блоки и возвращает в табличном виде. Распознавание происходит при помощи Robin OCR 1

Иконка действия

Image Modified

Параметры и их настройки

Свойство

Описание

Тип

Пример заполнения

Обязательность заполнения поля

Параметры

Путь к файлуФайл

Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf

Robin.FilePath


Да

Номер страницы

Номер страницы файла, с которой нужно извлечь данные. Если поле не заполнено, данные будут извлечены со всех страниц

Robin.Numeric


Нет

Язык

Предполагаемый язык текста, который необходимо извлечь. Выбирается из выпадающего списка:

  • Русский
  • Английский
  • Арабский
  • Вьетнамский
  • Русский и английский
  • Вьетнамский и английский
  • Арабский и английский
  • Испанский и английский
  • Португальский и английский

По умолчанию английский.

Robin.String


Нет

Дополнительный язык

Дополнительный язык, необходимый для распознавания документана котором предположительно может быть распознаваемый текст.

Выбирается из выпадающего списка:

  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский

Robin.String


Нет

Алгоритм

Формат данных, которые действие должно распознать. Если выбрано "Таблица" или "Текст и таблица", текст из таблиц будет возвращен с учетом табличной разметки

Выпадающий список из элементов: Текст, Таблица, Текст и таблица

Robin.String


Да

Расстояние между словами

Максимальное расстояние между словами в тексте. Используется при делении исходного текста на столбцы для результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблиц. Значение по умолчанию - 20 пикселей

Robin.Numeric


Нет

Расстояние между строками

Максимальное расстояние между строками в тексте. Используется при делении исходного текста на строки для результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблиц. Значение по умолчанию - 1 пикселей

Robin.Numeric


Нет

Путь к папке

Путь к папке, в которую будут сохранено изображение исходного текста с наложенными блоками, на которые его делит действие для распознавания. Для сохранения также нужно заполнить поле "Имя файла"

Robin.FolderPath

C:\doc\img

Нет

Имя файла

Название изображения исходного текста с наложенными блоками (без расширения). Изображение будет создано с расширением *.png. Если действие извлекает текст с нескольких страниц, то на каждую из них будет создано свое изображение, к названию которого будет добавлен индекс. Для сохранения также нужно заполнить поле "Путь к папке"

Robin.String


Нет

Перезаписать

Если значение "true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет. Если "false", изображение перезаписано не будет, и действие вернет ошибку

Robin.Boolean

true

Нет

Параметры

Дополнительные параметры, влияющие на результат и качество распознавания текста

Robin.String


Нет

Подписать

Если значение "true", то перед каждой распознанной табличной или текстовой частью будет добавлено слово "Part" c порядковым номером этой части. Если значение "false", перед этими частями будет вставлена пустая строка

Robin.Boolean

true

Нет

Поле "Обученная модель"

Файл с обученной моделью Tesseract в формате .tessdata

Robin.FilePath

 

Нет

Результаты

Таблица

Таблица, сформированная на основе данных, извлеченных из исходного файла.

Robin.DataTable



Изображение с блоками

Коллекция путей к изображениям с наложенными блоками

Robin.Collection



...