Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 22 Следующий »

Извлечь данные из документа Версия 3 (Python)

Группа действий: Распознавание текста


Описание

Действие извлекает данные из документов (Паспорт 2-3стр., Паспорт 5стр., СНИЛС) и сохраняет их в виде словаря, содержащего извлеченные данные документа, и изображение с блоками, из которых брались эти данные. Для извлечения данных действие использует сервисы Dbrain, поэтому для его работы потребуется API-ключ вендора.


Настройки

Свойство

Описание

Тип

Пример заполнения

Обязательность заполнения поля

Параметры

Путь к файлу

Путь к изображению, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png.

Robin.FilePath.

C:\doc\img.png

Да

API ключ

Уникальный идентификатор для доступа к сервису Dbrain.

Robin.String


Да

Облачный сервер

Если значение "true", то действие будет отправлять запрос на облачный сервер DBrain. Если "false", действие отправит запрос на локальный сервер Dbrain.

Robin.Boolean

true

Нет

Тип документа

Тип документа в исходном изображении. В зависимости от выбранного типа будут извлечены соответствующие наборы полей.

Выпадающий список из элементов:

  • Паспорт 2-3стр.
  • Паспорт 5стр.
  • СНИЛС

Robin.String


Да

Путь к папке

Путь к папке, в которую будет сохранена копия исходного изображения с наложенными блоками, на которые его делит действие для распознавания. Для сохранения также нужно заполнить поле "Имя файла".

Robin.FolderPath

C:\doc\Folder

Нет

Имя файлаНазвание изображения с наложенными блоками (без расширения). Изображение будет создано с расширением *.png. Для сохранения также нужно заполнить поле "Путь к папке".Robin.String
Нет
Тайм-аут, мс

Время в миллисекундах, в течение которого будет происходить извлечение данных из документа. Значение по умолчанию 120000 мс.

Robin.Numeric
Нет
ПерезаписатьЕсли значение "true", и в указанной папке существует изображение с таким же именем и расширением, то новое изображение с блоками его перезапишет. Если "false", файл перезаписан не будет, и действие вернет ошибку.Robin.BooleantrueНет
Результаты

Извлеченные данные

Словарь, содержащий значения, извлеченные из исходного изображения, где ключ - наименование поля, а значение - данные из соответствующих значению полей. Список полей для каждого типа документов указаны в особых условиях использования действия.

Robin.Dictionary



Изображение с блокамиПуть к изображению с наложенными блоками.Robin.FilePath

Точность распознаванияТочность распознавания каждого поля на изображении в диапазоне от 0 до 1. Ключ - имя поля, значение - точность распознавания данного поля.Robin.Dictionary

Особые условия использования 

Подключение к Dbrain https://doc.dbrain.io/podklyuchenie/podklyuchenie-k-oblaku

Нейросеть распознает только российские документы.  

Для каждого вида документа определен набор полей, которые робот будет искать. Если изображение не содержит искомых полей, то значение поля вернется пустым.  Ключи возвращаются на русском. 

Ключи для паспорта 2-3 стр.:

  • Паспорт выдан
  • Дата выдачи
  • Код подразделения

  • Фамилия

  • Имя

  • Отчество

  • Пол

  • Дата рождения
  • Место рождения

  • Номер и серия паспорта

Ключи для прописки (5 стр):

  • Полный адрес
  • Дата регистрации
  • Регион
  • Район
  • Пункт
  • Р-н
  • Улица
  • Дом
  • Строение
  • Квартира
  • Подразделение
  • Код подразделения

Ключи для СНИЛС:

  • Номер СНИЛС
  • Фамилия
  • Имя
  • Отчество
  • Дата рождения
  • Место рождения
  • Пол
  • Дата регистрации

Робот вернет ошибку, если:

  • заполнено поле "Путь к папке" и не заполнено "Имя файла".

  • заполнено поле "Имя файла" и не заполнено "Путь к файлу".

  • в поле "Путь к файлу" подается недопустимый формат входного файла.
  • по указанному пути уже есть файл с указанным именем и поле "перезаписать" = false.
  • указан неверный API-ключ.
  • Тайм-аут закончился, результат не получен.
  • Облачный сервер не отмечен, локальный сервер не развернут пользователем на машине.

Пример использования 

Задача: распознать поля с данными документа из файла.

Решение: воспользоваться действием "Извлечь данные из документа". 

Реализация:

Документ для распознания:

  1. Перенести действие  "Извлечь данные из документа" на рабочую область.
  2. Настроить параметры действия "Извлечь данные из документа".
  3. Нажать на кнопку "Старт"  в верхней панели.

Результат: Программный робот отработал успешно. Поля с данными распознаны.


Точность распознавания
Номер СНИЛС1
Фамилия1
Имя1
Отчество1
Дата рождения1
Место рождения1
Пол1
Дата регистрации1


Изображение с наложенными блоками:



  • Нет меток