Извлечь данные в
...
таблицу Версия 8 (Python)
Группа действий: Распознавание текста Robin OCR
...
Описание
Действие распознает текст документас документа, разделяет его на блоки и сохраняет возвращает в табличном виде.
...
Иконка действия
Image Added
Параметры и их настройки
Англ. наименование | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
Параметры |
Путь к файлу | Path to fileФайл | Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf |
.Путь к файлу | C:\Users\Документы\1.pdfPage number многостраничном данные в таблицуЧислоданные. Если поле не заполнено, данные будут извлечены со всех страниц | Robin.Numeric |
| Нет |
Язык |
Language | Выпадающий список из элементов: Русский язык, Английский язык, Русский и английский языки, Испанский язык, Португальский язык. Значение по умолчанию - Русский и английский языки.
Предполагаемый язык текста, который необходимо распознать
Предполагаемый язык текста, который необходимо извлечь | Robin.String |
| Нет |
Дополнительный язык | Дополнительный язык, на котором предположительно может быть распознаваемый текст | Robin.String |
| Нет |
Алгоритм | Формат данных, которые действие должно распознать. Если выбрано «Таблица» или «Текст и таблица», текст из таблиц будет возвращен с учетом табличной разметки | Robin.String |
| Да |
Строка | НетDistance between words | Максимальное расстояние между словами |
в пикселях для разделения блоков в тексте. Используется при делении исходного текста на столбцы для результирующей таблицы |
. По умолчанию действие использует расстояние в . В алгоритме «Таблица» и «Текст и таблица» параметр не учитывается для текста из таблиц. Значение по умолчанию - 20 пикселей |
ЧислоRobin.Numeric |
| Нет |
Расстояние между строками |
Line spacing расстояние расстояние между строками в |
пикселях для разделения блоков тексте. Используется при делении исходного текста на строки для результирующей таблицы |
. По умолчанию действие использует расстояние в 1 пиксель.Число | строками, действие делит распознаваемый текст на блоки. В поле можно указать путь . В алгоритме «Таблица» и «Текст и таблица» параметр не учитывается для текста из таблиц. Значение по умолчанию - 1 пиксель | Robin.Numeric |
| Нет |
Путь к папке |
Folder path | С учетом выбранного расстояния между словами и будет будут сохранено изображение |
распознанного исходного текста с наложенными блоками, на которые его делит действие для распознавания. Для сохранения |
файла нужно заполнить нужно заполнить поле "Имя файла" |
| Robin.FolderPath | C:\doc\img |
Путь к папкеFile name файла изображения исходного текста с наложенными блоками (без расширения). |
По умолчанию создается файл Изображение будет создано с расширением *.png. |
Для сохранения файла также нужно заполнить поле Если действие извлекает текст с нескольких страниц, то на каждую из них будет создано свое изображение, к названию которого будет добавлен индекс. Для сохранения также нужно заполнить поле "Путь к папке" |
СтрокаRobin.String |
| Нет |
Перезаписать |
Overwrite | равно True«true», и в указанной папке существует файл изображения с таким же именем, индексом и расширением, то новый файл его перезапишет. Если |
False«false», файл перезаписан не будет и действие вернет ошибку | Robin.Boolean | true | Нет |
Параметры | Дополнительные параметры, влияющие на результат и качество распознавания текста | Robin.String |
| Нет |
Подписать | Если значение "true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет. Если "false", изображение перезаписано не будет, и действие вернет ошибку | Robin. |
Boolean | true | Нет |
Обученная модель | Файл с обученной моделью Tesseract в формате .traineddata | Robin.FilePath |
ЛогическийTable | Таблица, сформированная на основе |
текста извлеченного извлеченных из исходного документа | Robin.DataTable |
Таблица | Путь к изображению Путь к файлу изображения Path to image with blocks | Коллекция путей к файлам изображений страниц документа с наложенными блоками |
.Путь к файлу
Особые условия использования
Действие распознает текст с распознает текст документа и разбивать его разбивает его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.
На вход можно давать подавать документы:
- только текстовый слой pdfслой pdf-документа
- только изображения
- и текстовый слой, и изображения.
Работа действия основана на алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.
Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст.
Пример распознавания.
Image RemovedImage Removed
Логика работы действия, в зависимости от настройки параметра "Алгоритм": если выбрана "Таблица", действие вернет текст только из таблиц, сохранив его табличную разметку. Если "Текст", вернет все, но для текста из таблиц не учтет его разметку (то есть считывается весь текст из исходного документа, при этом, если были найдены таблицы, текст из них будет извлечен не по табличной разметке, а по расстоянию). Если "Текст и таблица", распознает и вернет текст из таблиц и обычный текст как отдельные части, сохранив для таблиц разметку.
Следует иметь ввиду, что если обученная модель не работает или плохо натренирована, то необходимо значения выпадающего списка "Язык" заменить на значения списка "Дополнительный язык".
Пример использования
Задача
Распознать таблицу из документа obrazec.pdf Задача: распознать информацию с изображения чека и записать результат в таблицу в формате CSV.
Решение
Воспользоваться : воспользоваться действиями "Извлечь данные в таблицу", "Сохранить таблицу в CSV".
Реализация
...
- Собрать схему робота, состоящего из действий:
Image Modified - Настроить параметры для действия "Извлечь данные в таблицу".
Image RemovedImage Added - Настроить параметры для действия "Сохранить таблицу в CSV".
Image RemovedImage Added - Нажать на кнопку "Старт" в верхней панели.
Результат
...
Программный робот отработал успешно. Данные с изображения чека документа извлечены в таблицу формата CSV.
Image Added
Страницы из документа сохранены в формате .png в указанную папку с выделенными блоками.Image AddedImage Added
Таблица излечена и сохранена в формате .csv Image Removed