Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Извлечь данные в

...

таблицу Версия 8 (Python)

Группа действий: Распознавание текста Robin OCR 

...

Описание

Действие распознает текст  документас документа, разделяет его на блоки и сохраняет возвращает в табличном виде.

...

Иконка действия

Image Added

Параметры и их настройки

..
СвойствоОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
Путь к файлуФайлПуть к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf.Robin.FilePath
Да
Номер страницыНомер страницы в документе, с которой нужно извлечь данные. Если поле не заполнено, данные будут извлечены со всех страниц.Robin.Numeric
Нет
ЯзыкПредполагаемый язык текста, который необходимо извлечьRobin.String
Нет
Дополнительный языкДополнительный язык, на котором предположительно может быть распознаваемый текстRobin.String
Нет
АлгоритмЕсли выбран «Текст»Формат данных, действие распознает только текстовые данныекоторые действие должно распознать. Если «Таблица», действие распознает только табличные данные. Если выбрано «Таблица» или «Текст и таблица», действие распознает любые данные.текст из таблиц будет возвращен с учетом табличной разметкиRobin.String
Да
Расстояние между словамиМаксимальное расстояние между словами в текстовых данных документатексте. Используется для деления при делении исходного текста на столбцы в результирующей таблицедля результирующей таблицы. В алгоритме «Таблица» и «Текст и таблица» параметр не учитывается для текста из таблиц. Значение по умолчанию - 20 пикселей.Robin.Numeric
Нет
Расстояние между строкамиМаксимальное расстояние между строками в текстовых данных документатексте. Используется для деления при делении исходного текста на строки в результирующей таблицедля результирующей таблицы. В алгоритме «Таблица» и «Текст и таблица» параметр не учитывается для текста из таблиц. Значение по умолчанию - 1 пиксель.Robin.Numeric
Нет
Путь к папкеПуть к папке, в которую будет будут сохранено изображение страницы документа исходного текста с наложенными блоками, на которые его делит действие разделило данныедля распознавания. Для сохранения файла также нужно заполнить поле «Имя файла»."Имя файла"Robin.FolderPathC:\doc\imgНет
Имя файлаНазвание изображения страницы документа исходного текста с наложенными блоками (без расширения). Изображение будет создано с расширением *.png. Если действие извлекает данные текст с нескольких страниц, то на каждую из них будет создан отдельный файлсоздано свое изображение, к названию которого будет добавлен индекс. Для сохранения файла также нужно заполнить поле «Путь к папке»."Путь к папке"Robin.String
Нет
ПерезаписатьЕсли значение «true», и в указанной папке существует файл изображения с таким же именем, индексом и расширением, то новый файл его перезапишет. Если «false», файл перезаписан не будет и действие вернет ошибку.Robin.BooleantrueНет
ПараметрыДополнительные параметры, влияющие на результат и качество распознавания текста.Robin.String
Нет
ПодписатьЕсли значение «true», то перед каждой распознанной табличной или текстовой частью будет добавлено слово «Part» c порядковым номером этой части. Если значение «false», перед этими частями будет вставлена пустая строка."true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет. Если "false", изображение перезаписано не будет, и действие вернет ошибкуRobin.BooleantrueНет
Обученная модельФайл с обученной моделью Tesseract в формате .traineddataRobin.FilePath
Нет
Результаты
ТаблицаТаблица, сформированная на основе данных, извлеченных из исходного документаRobin.DataTable

Изображение с блокамиКоллекция путей к файлам изображений страниц документа с наложенными блокамиRobin.Collection


Особые условия использования 

Действие распознает текст распознает текст документа и разбивает его разбивает его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.

На вход можно подавать документы:

  • только текстовый слой pdfслой pdf-документа
  • только изображения
  • и текстовый слой, и изображения.

Работа действия основана на алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.

Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст. 

Логика работы действия, в зависимости от настройки параметра "Алгоритм": если выбрана "Таблица", действие вернет текст только из таблиц, сохранив его табличную разметку. Если "Текст", вернет все, но для текста из таблиц не учтет его разметку (то есть считывается весь текст из исходного документа, при этом, если были найдены таблицы, текст из них будет извлечен не по табличной разметке, а по расстоянию).  Если "Текст и таблица", распознает и вернет текст из таблиц и обычный текст как отдельные части, сохранив для таблиц разметку.

Следует иметь ввиду, что если обученная модель не работает или плохо натренирована,  то необходимо значения выпадающего списка "Язык" заменить на значения списка "Дополнительный язык".

Пример использования 

Задача

Распознать : распознать таблицу из документа документа obrazec.pdf и записать результат в таблицу в формате CSV. 

Решение

Воспользоваться : воспользоваться действиями "Извлечь данные в таблицу", "Сохранить таблицу в CSV". 

Реализация

...

  1. Собрать схему робота, состоящего из действий:
    Image Modified
  2. Настроить параметры для действия "Извлечь данные в таблицу". 
    Image RemovedImage Added
  3. Настроить параметры для действия "Сохранить таблицу в CSV". 
    Image RemovedImage Added
  4. Нажать на кнопку "Старт" в верхней панели. 

Результат

...

Программный робот отработал успешно. Данные с документа извлечены в таблицу формата CSV. 
Image RemovedImage Added

Страницы из документа сохранены в формате .png в указанную папку с выделенными блоками.Image RemovedImage RemovedImage AddedImage Added

Таблица излечена и сохранена в формате .csv Новая таблица.csv