Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Извлечь данные в таблицу Версия

...

8 (Python)

Группа действий: Robin OCR 

...

Иконка действия

Параметры и их настройки

файла. изображениям
СвойствоОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
ФайлПуть к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdfRobin.FilePath
Да
Номер страницыНомер страницы файлав документе, с которой нужно извлечь данные. Если поле не заполнено, данные будут извлечены со всех страницRobin.Numeric
Нет
ЯзыкПредполагаемый язык текста, который необходимо извлечь. Выбирается из выпадающего списка:
  • Русский
  • Английский
  • Арабский
  • Вьетнамский
  • Русский и английский
  • Вьетнамский и английский
  • Арабский и английский
  • Испанский и английский
  • Португальский и английский
  • По умолчанию английский.

    Robin.String

    Нет
    Дополнительный языкДополнительный язык, на котором предположительно может быть распознаваемый текст.

    Выбирается из выпадающего списка:

  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский
  • Robin.String
    Нет
    Алгоритм

    Формат данных, которые действие должно распознать. Если выбрано "Таблица" или "Текст и таблица", текст из таблиц будет возвращен с учетом табличной разметки

    Выпадающий список из элементов: Текст, Таблица, Текст и таблица
    Если выбран «Текст», действие распознает только текстовые данные. Если «Таблица», действие распознает только табличные данные. Если «Текст и таблица», действие распознает любые данныеRobin.String
    Да
    Расстояние между словамиМаксимальное расстояние между словами в текстетекстовых данных документа. Используется при делении исходного для деления текста на столбцы для результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблицв результирующей таблице. Значение по умолчанию - 20 пикселейRobin.Numeric
    Нет
    Расстояние между строкамиМаксимальное расстояние между строками в текстетекстовых данных документа. Используется при делении исходного для деления текста на строки для в результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблиц. таблице. Значение по умолчанию - 1 пикселейпиксельRobin.Numeric
    Нет
    Путь к папкеПуть к папке, в которую будут будет сохранено изображение исходного текста страницы документа с наложенными блоками, на которые его делит действие для распознаванияразделило данные. Для сохранения файла также нужно заполнить поле "Имя файла"«Имя файла»Robin.FolderPathC:\doc\imgНет
    Имя файлаНазвание изображения исходного текста страницы документа с наложенными блоками (без расширения). Изображение будет создано с расширением *.png. Если действие извлекает текст данные с нескольких страниц, то на каждую из них будет создано свое изображениесоздан отдельный файл, к названию которого будет добавлен индекс. Для сохранения файла также нужно заполнить поле "Путь «Путь к папке"папке»Robin.String
    Нет
    ПерезаписатьЕсли значение "true"«true», и в указанной папке существует изображение файл изображения с таким же именем, индексом и расширением, то новое изображение с блоками новый файл его перезапишет. Если "false", изображение перезаписано «false», файл перезаписан не будет , и действие вернет ошибкуRobin.BooleantrueНет
    ПараметрыДополнительные параметры, влияющие на результат и качество распознавания текстаRobin.String
    Нет
    ПодписатьЕсли значение "true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет. Если "false", изображение перезаписано не будет, и действие вернет ошибку«true», то перед каждой распознанной табличной или текстовой частью будет добавлено слово «Part» c порядковым номером этой части. Если значение «false», перед этими частями будет вставлена пустая строкаRobin.BooleantrueНет
    Обученная модельФайл с обученной моделью Tesseract в формате .tessdatatraineddataRobin.FilePath

     


    Нет
    Результаты
    ТаблицаТаблица, сформированная на основе данных, извлеченных из исходного документаRobin.DataTable

    Изображение с блокамиКоллекция путей к файлам изображений страниц документа с наложенными блокамиRobin.Collection


    Особые условия использования 

    ...