Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Свойство

Описание

Тип

Пример заполнения

Обязательность заполнения поля

Параметры

Путь к файлу

Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf

Robin.FilePath


Да

Номер страницы

Номер страницы файла, с которой нужно извлечь данные. Если поле не заполнено, данные будут извлечены со всех страниц

Robin.Numeric


Нет

Язык

Предполагаемый язык текста, который необходимо извлечь. Выбирается из выпадающего списка:

  • Русский
  • Английский
  • Арабский
  • Вьетнамский
  • Русский и английский
  • Вьетнамский и английский
  • Арабский и английский
  • Испанский и английский
  • Португальский и английский

По умолчанию английский.

Robin.String


Нет

Дополнительный язык

Дополнительный язык, необходимый для распознавания документа.

Выбирается из выпадающего списка:

  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский

Robin.String


Нет

Алгоритм

Формат данных, которые действие должно распознать. Если выбрано "Таблица" или "Текст и таблица", текст из таблиц будет возвращен с учетом табличной разметки

Выпадающий список из элементов: Текст, Таблица, Текст и таблица

Robin.String


Да

Расстояние между словами

Максимальное расстояние между словами в тексте. Используется при делении исходного текста на столбцы для результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблиц. Значение по умолчанию - 20 пикселей

Robin.Numeric


Нет

Расстояние между строками

Максимальное расстояние между строками в тексте. Используется при делении исходного текста на строки для результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблиц. Значение по умолчанию - 1 пикселей

Robin.Numeric


Нет

Путь к папке

Путь к папке, в которую будут сохранено изображение исходного текста с наложенными блоками, на которые его делит действие для распознавания. Для сохранения также нужно заполнить поле "Имя файла"

Robin.FolderPath

C:\doc\img

Нет

Имя файла

Название изображения исходного текста с наложенными блоками (без расширения). Изображение будет создано с расширением *.png. Если действие извлекает текст с нескольких страниц, то на каждую из них будет создано свое изображение, к названию которого будет добавлен индекс. Для сохранения также нужно заполнить поле "Путь к папке"

Robin.String


Нет

Перезаписать

Если значение "true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет. Если "false", изображение перезаписано не будет, и действие вернет ошибку

Robin.Boolean

true

Нет

Параметры

Дополнительные параметры, влияющие на результат и качество распознавания текста

Robin.String


Нет

Подписать

Если значение "true", то перед каждой распознанной табличной или текстовой частью будет добавлено слово "Part" c порядковым номером этой части. Если значение "false", перед этими частями будет вставлена пустая строка

Robin.Boolean

true

Нет

Поле "Обученная модель"

Файл с обученной моделью Tesseract в формате .tessdata

Robin.FilePath

 

Нет

Результаты

Таблица

Таблица, сформированная на основе данных, извлеченных из исходного файла.

Robin.DataTable



Изображение с блоками

Коллекция путей к изображениям с наложенными блоками

Robin.Collection




Особые условия использования 

...

Логика работы действия, в зависимости от настройки параметра "Алгоритм": если выбрана "Таблица", действие вернет текст только из таблиц, сохранив его табличную разметку. Если "Текст", вернет все, но для текста из таблиц не учтет его разметку (то есть считывается весь текст из исходного документа, при этом, если были найдены таблицы, текст из них будет извлечен не по табличной разметке, а по расстоянию).  Если "Текст и таблица", распознает и вернет текст из таблиц и обычный текст как отдельные части, сохранив для таблиц разметку.

Следует иметь ввиду, что если обученная модель не работает или плохо натренирована,  то необходимо значения выпадающего списка "Язык" заменить на значения списка "Дополнительный язык".

Пример использования 

Задача

...