Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 6 Следующий »

Извлечь данные в таблицу / Extract data to table

Группа действий: Распознавание текста 


Действие распознает текст с документа, разделяет его на блоки и сохраняет в табличном виде.


Настройки

СвойствоАнгл. наименованиеОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
Путь к файлуPath to file

Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf.

Путь к файлуC:\Users\Документы\1.pdfДа
Номер страницы
Page number
Номер страницы в многостраничном документе, данные которой нужно извлечь в таблицуЧисло
Нет
Язык
Language

Выпадающий список из элементов: Русский язык, Английский язык, Русский и английский языки, Испанский язык, Португальский язык. Значение по умолчанию - Русский и английский языки.


Предполагаемый язык текста, который необходимо распознать

Строка
Нет
Расстояние между словами
Distance between words
Максимальное расстояние между словами в пикселях для разделения блоков текста на столбцы таблицы. По умолчанию действие использует расстояние в 20 пикселейЧисло
Нет
Расстояние между строками
Line spacing
Максимальное расстояние между строками в пикселях для разделения блоков текста на строки таблицы. По умолчанию действие использует расстояние в 1 пиксель.Число
Нет
Путь к папке
Folder path
С учетом выбранного расстояния между словами и строками, действие делит распознаваемый текст на блоки. В поле можно указать путь к папке, в которую будет сохранено изображение распознанного текста с наложенными блоками. Для сохранения файла также нужно заполнить поле "Имя файла"Путь к папке
Нет
Имя файла
File name
Название файла изображения с наложенными блоками (без расширения). По умолчанию создается файл с расширением *.png. Для сохранения файла также нужно заполнить поле "Путь к папке"Строка
Нет
ПерезаписатьOverwriteЕсли значение равно True, и в указанной папке существует файл изображения с таким же именем и расширением, то новый файл его перезапишет. Если False, файл перезаписан не будет и действие вернет ошибку.Логический
Нет
Результаты
ТаблицаTableТаблица, сформированная на основе текста, извлеченного из исходного документа.Таблица

Путь к изображению с блоками
Path to image with blocks
Путь к файлу изображения с наложенными блоками.Путь к файлу


Особые условия использования 

Действие должно распознавать текст с документа и разбивать его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.

На вход можно давать документы:

  • только текстовый слой
  • только изображения
  • и текстовый слой, и изображения.

Работа действия основана алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.

Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст. 

Пример распознавания.

 




Пример использования 


Задача: распознать информацию с изображения чека и записать результат в таблицу в формате CSV. 

Решение: воспользоваться действиями "Извлечь данные в таблицу", "Сохранить таблицу в CSV". 

Реализация:

  1. Собрать схему робота, состоящего из действий:

  2. Настроить параметры для действия "Извлечь данные в таблицу". 
  3. Настроить параметры для действия "Сохранить таблицу в CSV". 
  4. Нажать на кнопку "Старт" в верхней панели. 

Результат:


Программный робот отработал успешно. Данные с изображения чека извлечены в таблицу формата CSV. 


  • Нет меток