Просмотреть исходный

Извлечь данные в таблицу / Extract data to table

Группа действий: Распознавание текста

Действие распознает текст с документа, разделяет его на блоки и сохраняет в табличном виде.

Особые условия использования

Действие должно распознавать текст с документа и разбивать его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.

На вход можно давать документы:

только текстовый слой
только изображения
и текстовый слой, и изображения.

Работа действия основана алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.

Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст.

Основные положения:

На движке tesseract.
За раз действие распознает только 1 страницу одного документа.
На вход можно дать файл с расширением jpg, jpeg, bmp, png, tif, pdf.
После нахождения всех блоков текста, они упорядочиваются сверху вниз, слева на право и сохраняются в табличную переменную с сохранением изначальной структуры документа.
Если подан одностраничный файл, поле "Номер страницы" будет игнорироваться.
Ячейки могут быть пустыми, так как в некоторых строках 1 столбец, в некоторых два или больше. И следовательно там, где 1 столбец там будет во следующих пустые ячейки.

Сохранение изображения распознанного текста с наложенными блоками.

Если поля "Путь к папке", "Имя файла" не заполнены, то файл с наложенными блоками не сохранится.
Если заполнено поле "Путь к папке" и не заполнено "Имя файла", то действие вернет ошибку.
Если заполнено поле "Имя файла" и не заполнено "Путь к файлу", то действие вернет ошибку.
Если заполнено поле "Имя файла" и "Путь к файлу", то файл сохраняется в указанной папке с указанным именем в формате *.png.
Если в указанной папке уже есть файл с указанным именем и расширением и поле "Перезаписать" = false, то робот вернет ошибку.

Пример распознавания.

Документация ROBIN > Извлечь данные в таблицу > image2022-10-31_10-28-44.png