Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Извлечь данные в

...

таблицу Версия 8 (Python)

Группа действий: Распознавание текста Robin OCR 

...

Описание

Действие распознает текст  документас документа, разделяет его на блоки и сохраняет возвращает в табличном виде.

...

Иконка действия

Image Added

Параметры и их настройки

Свойство
Англ. наименование
ОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
Путь к файлуPath to file
ФайлПуть к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf
.Путь к файлу
Robin.FilePath
C:\Users\Документы\1.pdf

Да
Номер страницы
Page number
Номер страницы в
многостраничном
документе,
данные
с которой нужно извлечь
в таблицуЧисло
данные. Если поле не заполнено, данные будут извлечены со всех страницRobin.Numeric
Нет
Язык
Language

Выпадающий список из элементов: Русский язык, Английский язык, Русский и английский языки, Испанский язык, Португальский язык. Значение по умолчанию - Русский и английский языки.

Предполагаемый язык текста, который необходимо распознать

Предполагаемый язык текста, который необходимо извлечьRobin.String
Нет
Дополнительный языкДополнительный язык, на котором предположительно может быть распознаваемый текстRobin.String
Нет
АлгоритмФормат данных, которые действие должно распознать. Если выбрано «Таблица» или «Текст и таблица», текст из таблиц будет возвращен с учетом табличной разметкиRobin.String
Да
Расстояние между словамиМаксимальное расстояние между словами в тексте. Используется при делении исходного текста на столбцы для результирующей таблицы. В алгоритме «Таблица» и «Текст и таблица» параметр не учитывается для текста из таблиц. Значение по умолчанию - 20 пикселейRobin.Numeric
СтрокаНетРасстояние между словами
Distance between words
Максимальное расстояние между словами в пикселях для разделения блоков текста на столбцы таблицы. По умолчанию действие использует расстояние в 20 пикселейЧисло

Нет
Расстояние между строками
Line spacing
Максимальное
расстояние
расстояние между строками в
пикселях для разделения блоков
тексте. Используется при делении исходного текста на строки для результирующей таблицы
. По умолчанию действие использует расстояние в 1 пиксель.Число
. В алгоритме «Таблица» и «Текст и таблица» параметр не учитывается для текста из таблиц. Значение по умолчанию - 1 пиксельRobin.Numeric
Нет
Путь к папке
Folder path
С учетом выбранного расстояния между словами и строками, действие делит распознаваемый текст на блоки. В поле можно указать путь
Путь к папке, в которую
будет
будут сохранено изображение
распознанного
исходного текста с наложенными блоками, на которые его делит действие для распознавания. Для сохранения
файла
также
нужно заполнить 
нужно заполнить поле "Имя файла"
Путь к папке
Robin.FolderPathC:\doc\imgНет
Имя файла
File name
Название
файла
изображения исходного текста с наложенными блоками (без расширения).
По умолчанию создается файл
Изображение будет создано с расширением *.png.
 Для сохранения файла также нужно заполнить поле
Если действие извлекает текст с нескольких страниц, то на каждую из них будет создано свое изображение, к названию которого будет добавлен индекс. Для сохранения также нужно заполнить поле "Путь к папке"
Строка
Robin.String
Нет
Перезаписать
Overwrite
Если значение
равно True
«true», и в указанной папке существует файл изображения с таким же именем, индексом и расширением, то новый файл его перезапишет. Если
False
«false», файл перезаписан не будет и действие вернет ошибкуRobin.BooleantrueНет
ПараметрыДополнительные параметры, влияющие на результат и качество распознавания текстаRobin.String
Нет
ПодписатьЕсли значение "true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет.
Если "false", изображение перезаписано не будет, и действие вернет ошибкуRobin.BooleantrueНет
Обученная модельФайл с обученной моделью Tesseract в формате .traineddataRobin.FilePath
Логический

Нет
Результаты
Таблица
Table
Таблица, сформированная на основе
текста
данных,
извлеченного
извлеченных из исходного документаRobin.DataTable
ТаблицаПуть к изображению Путь к файлу изображения


Изображение с блоками
Path to image with blocks
Коллекция путей к файлам изображений страниц документа с наложенными блоками
.Путь к файлу
Robin.Collection


Особые условия использования 

Действие распознает текст распознает текст документа и разбивает его разбивает его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.

На вход можно подавать документы:

  • только текстовый слой pdfслой pdf-документа
  • только изображения
  • и текстовый слой, и изображения.

Работа действия основана на алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.

Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст. 

Пример распознавания.

Image RemovedImage Removed

Пример использования 

Логика работы действия, в зависимости от настройки параметра "Алгоритм": если выбрана "Таблица", действие вернет текст только из таблиц, сохранив его табличную разметку. Если "Текст", вернет все, но для текста из таблиц не учтет его разметку (то есть считывается весь текст из исходного документа, при этом, если были найдены таблицы, текст из них будет извлечен не по табличной разметке, а по расстоянию).  Если "Текст и таблица", распознает и вернет текст из таблиц и обычный текст как отдельные части, сохранив для таблиц разметку.

Следует иметь ввиду, что если обученная модель не работает или плохо натренирована,  то необходимо значения выпадающего списка "Язык" заменить на значения списка "Дополнительный язык".

Пример использования 

Задача

Распознать таблицу из документа obrazec.pdf Задача: распознать информацию с изображения чека и записать результат в таблицу в формате CSV. 

Решение

Воспользоваться : воспользоваться действиями "Извлечь данные в таблицу", "Сохранить таблицу в CSV". 

Реализация

...

  1. Собрать схему робота, состоящего из действий:
    Image Modified
  2. Настроить параметры для действия "Извлечь данные в таблицу". 
    Image RemovedImage Added
  3. Настроить параметры для действия "Сохранить таблицу в CSV". 
    Image RemovedImage Added
  4. Нажать на кнопку "Старт" в верхней панели. 

Результат

...

Программный робот отработал успешно. Данные с изображения чека документа извлечены в таблицу формата CSV. 
Image Added

Страницы из документа сохранены в формате .png в указанную папку с выделенными блоками.Image AddedImage Added

Таблица излечена и сохранена в формате .csv Image Removed