История страницы
...
Особые условия использования
Отсутствуют.
Извлечь данные в таблицу / Extract data to table
Группа действий: Распознавание текста
...
Действие распознает текст с документа, разделяет его на блоки и сохраняет в табличном виде.
Настройки
Свойство | Англ. наименование | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
---|---|---|---|---|---|
Параметры | |||||
Путь к файлу | Path to file | Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf. | Путь к файлу | C:\Users\Документы\1.pdf | Да |
Номер страницы | Page number | Номер страницы в многостраничном документе, данные которой нужно извлечь в таблицу | Число | Нет | |
Язык | Language | Выпадающий список из элементов: Русский язык, Английский язык, Русский и английский языки, Испанский язык, Португальский язык. Значение по умолчанию - Русский и английский языки. Предполагаемый язык текста, который необходимо распознать | Строка | Нет | |
Расстояние между словами | Distance between words | Максимальное расстояние между словами в пикселях для разделения блоков текста на столбцы таблицы. По умолчанию действие использует расстояние в 20 пикселей | Число | Нет | |
Расстояние между строками | Line spacing | Максимальное расстояние между строками в пикселях для разделения блоков текста на строки таблицы. По умолчанию действие использует расстояние в 1 пиксель. | Число | Нет | |
Путь к папке | Folder path | С учетом выбранного расстояния между словами и строками, действие делит распознаваемый текст на блоки. В поле можно указать путь к папке, в которую будет сохранено изображение распознанного текста с наложенными блоками. Для сохранения файла также нужно заполнить поле "Имя файла" | Путь к папке | Нет | |
Имя файла | File name | Название файла изображения с наложенными блоками (без расширения). По умолчанию создается файл с расширением *.png. Для сохранения файла также нужно заполнить поле "Путь к папке" | Строка | Нет | |
Перезаписать | Overwrite | Если значение равно True, и в указанной папке существует файл изображения с таким же именем и расширением, то новый файл его перезапишет. Если False, файл перезаписан не будет и действие вернет ошибку. | Логический | Нет | |
Результаты | |||||
Таблица | Table | Таблица, сформированная на основе текста, извлеченного из исходного документа. | Таблица | ||
Путь к изображению с блоками | Path to image with blocks | Путь к файлу изображения с наложенными блоками. | Путь к файлу |
Особые условия использования
Действие должно распознавать текст с документа и разбивать его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.
На вход можно давать документы:
- только текстовый слой
- только изображения
- и текстовый слой, и изображения.
Работа действия основана алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.
Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст.
Пример распознавания.