Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Извлечь данные в таблицу Версия

...

6 (Python)

Группа действий: Robin OCR 

...

Действие распознает текст с документа, разделяет его на блоки и возвращает в табличном виде. Распознавание происходит при помощи Robin OCR 1

Иконка действия

Параметры 

Входные параметры

Путь к файлу                                          Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf

Номер страницы                                   Номер страницы файла, с которой нужно извлечь данные. Если поле не заполнено, данные будут извлечены со всех страниц

Язык                                                        Предполагаемый язык текста. Выбирается из выпадающего списка. По умолчанию – английский.  

Алгоритм                                                Формат данных, которые действие должно распознать. Если выбрано "Таблица" или "Текст и таблица", текст из таблиц будет возвращен с учетом табличной разметки

Расстояние между словами                  Максимальное расстояние между словами в тексте. Используется при делении исходного текста на столбцы для результирующей таблицы. В алгоритме "Таблица"
                                                                 и "Текст и таблица" параметр не учитывается для текста из таблиц. Значение по умолчанию - 20 пикселей

Расстояние между строками                 Максимальное расстояние между строками в тексте. Используется при делении исходного текста на строки для результирующей таблицы. В алгоритме "Таблица"
                                                                 и "Текст и таблица" параметр не учитывается для текста из таблиц. Значение по умолчанию - 1 пикселей

Путь к папке                                           Путь к папке, в которую будет сохранена копия исходного изображения с наложенными блоками, на которые его делит действие для распознавания. Для сохранения также
                                                                 нужно заполнить поле "Имя файла"

 Имя файла                                             Название изображения с наложенными блоками (без расширения). Изображение будет создано с расширением *.png. Для сохранения также нужно заполнить поле "Путь к папке"

Перезаписать                                         Указывает перезапись уже существующего файла

Параметры                                             Дополнительные параметры, влияющие на результат и качество распознавания текста

Подписать                                               Если значение "true", то перед каждой распознанной табличной или текстовой частью будет добавлено слово "Part" c порядковым номером этой части. Если значение "false",
                                                                 перед этими частями будет вставлена пустая строка

Выходные параметры

Таблица                                                   Таблица, сформированная на основе данных, извлеченных из исходного файла

Изображение с блоками                        Коллекция путей к изображениям с наложенными блоками

Настройки

Параметры и их настройки

Свойство

Описание

Тип

Пример заполнения

Обязательность заполнения поля

Параметры

Путь к файлу

Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf

Robin.FilePath


Да

Номер страницы

Номер страницы файла, с которой нужно извлечь данные. Если поле не заполнено, данные будут извлечены со всех страниц

Robin.Numeric


Нет

Язык

Предполагаемый язык текста, который необходимо извлечь. Выбирается из выпадающего списка:

  • Русский
  • Английский
  • Арабский
  • Вьетнамский
  • Русский и английский
  • Вьетнамский и английский
  • Арабский и английский
  • Испанский и английский
  • Португальский и английский

По умолчанию английский

Robin.String


Нет

Алгоритм

Формат данных, которые действие должно распознать. Если выбрано "Таблица" или "Текст и таблица", текст из таблиц будет возвращен с учетом табличной разметки

Выпадающий список из элементов: Текст, Таблица, Текст и таблица

Robin.String


Да

Расстояние между словами

Максимальное расстояние между словами в тексте. Используется при делении исходного текста на столбцы для результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблиц. Значение по умолчанию - 20 пикселей

Robin.Numeric


Нет

Расстояние между строками

Максимальное расстояние между строками в тексте. Используется при делении исходного текста на строки для результирующей таблицы. В алгоритме "Таблица" и "Текст и таблица" параметр не учитывается для текста из таблиц. Значение по умолчанию - 1 пикселей

Robin.Numeric


Нет

Путь к папке

Путь к папке, в которую будут сохранено изображение исходного текста с наложенными блоками, на которые его делит действие для распознавания. Для сохранения также нужно заполнить поле "Имя файла"

Robin.FolderPath

C:\doc\img

Нет

Имя файла

Название изображения исходного текста с наложенными блоками (без расширения). Изображение будет создано с расширением *.png. Если действие извлекает текст с нескольких страниц, то на каждую из них будет создано свое изображение, к названию которого будет добавлен индекс. Для сохранения также нужно заполнить поле "Путь к папке"

Robin.String


Нет

Перезаписать

Если значение "true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет. Если "false", изображение перезаписано не будет, и действие вернет ошибку

Robin.Boolean

true

Нет

Параметры

Дополнительные параметры, влияющие на результат и качество распознавания текста

Robin.String


Нет

Подписать

Если значение "true", то перед каждой распознанной табличной или текстовой частью будет добавлено слово "Part" c порядковым номером этой части. Если значение "false", перед этими частями будет вставлена пустая строка

Robin.Boolean

true

Нет

Результаты

Таблица

Таблица, сформированная на основе данных, извлеченных из исходного файла.

Robin.DataTable



Изображение с блоками

Коллекция путей к изображениям с наложенными блоками

Robin.Collection



...