Распознать Версия 2 (Net)


Описание

Извлечение текста из файла с помощью сервиса Робин OCR с Сойкой

Иконка действия

Параметры

Входные параметры

URL                                              Ссылка для аутентификации на сервисе Сойки

Логин                                          Логин для входа

Пароль                                        Пароль для входа

Класс пакета                               Класс пакета, которым будет обрабатываться сценарий

Файл                                            Путь к файлу, из которого необходимо извлечь текст

Тип результата                           Формат, в котором будут представлены результаты

Профиль распознавания          Профиль распознавания для получения результатов

Тайм-аут                                     Время в миллисекундах, в течение которого действие будет ожидать ответ от сервиса SOICA

Выходные параметры

Результат                                   Коллекция json-объектов или xml-контекстов, содержащих распознанные данные

Статус                                         Статус распознавания документа

Настройки 

Свойство

Описание

Тип

Пример заполненияОбязательность заполнения поля
Параметры

URL

Ссылка для аутентификации на сервисе СойкиRobin.String http://localhost/administratorДа
Логин

Логин для входа

Robin.StringadminДа
ПарольПароль для входаRobin.PasswordadminДа
Класс пакетаКласс пакета, которым будет обрабатываться сценарийRobin.String.Имя класса пакетаДа

Файл

Путь к файлу, из которого необходимо извлечь текст. Поддерживаемые форматы изображений: JPEG, PDF, TIFF, BMP, PNG, DOCX, GIF

Robin.FilePath. 

C:\Users\Документ\1.jpgДа

Тип результата

Формат, в котором будут представлены результаты


Выпадающий список из элементов: XML, JSON

Значение по умолчанию: XML

Robin.StringJSONНет
Профиль распознавания

Профиль распознавания для получения результатов


Профили создаются в самой Сойке и пользователь заранее знает, какой необходимо выбрать. Значение по умолчанию задается системой при создании класса пакетов и называется default
Robin.StringdefaultНет
Тайм-аутВремя в миллисекундах, в течение которого действие будет ожидать ответ от сервиса SOICARobin.Numeric1000000Нет
Результаты

Результат

Коллекция json-объектов или xml-контекстов, содержащих распознанные данные. Если истек указанный тайм-аут, а сервис не закончил распознавание, этот параметр вернется пустым.

Если распознание документа еще в процессе, то результат не заполнен.

Robin.Collection

СтатусСтатус распознавания документаRobin.String

Особые условия использования

Общие принципы работы с ROBIN OCR:

  1. Для отправки документа на распознавание нужно выполнить минимум 2 запроса. Сначала  отправляется запрос на создание пакета, в запрос передается единственное изображение пакета или первое. Запрос возвращает GUID пакета. Если изображений в пакете должно быть несколько, то в последующих запросах эти изображения добавляются к пакету (по одному). Завершающим запросом надо запустить пакет на обработку. Во второй и последующие запросы передается GUID созданного пакета.

  2. Формат результата настраивается заранее, в сценарии.

  3. Пользователь будет получать результат в виде коллекции json-объектов или xml-контекстов. С полученными результатами можно работать действиями студии.

  4. Список классов пакета пользователь должен знать перед запуском действия.

  5. Классы пакетов будут настроены в системе инженером, нужно выбрать класс, подходящий для обработки изображения. Имя класса пакета - это имя настроенного проекта. Имя класса пакета нужно указывать при создании пакета (обязательно). Имя пакета надо задавать в запросе. 

  6. Когда робот будет завершать работу с ошибкой, в тексте ошибки будет отображаться причина. 

  7. Если статус документа не "export", то робот не сможет получить результат и пропустит документ. Пользователь сам должен будет передвинуть документ в статус "экспорт" на сервере. Нужно провести валидацию файла вручную и отправить его на экспорт, путем внесения и принятия изменений в нем.

  8. Статусы: 

    1. import – импорт => ждать смены статуса;
    2. recognize – распознавание =>ждать смены статуса;
    3. validation – валидация=> вручную менять статус в системе Сойки;
    4. export – экспорт => готово к выгрузке, можно запускать действие "Получить статус распознавания";
    5. deleted - пакет был удален, ждать смены статуса;
    6. inaccessible - пакет недоступен, ждать смены статуса;
    7. quality control -  если пользователь отправил по неправильному сценарию, вручную менять статус в системе Сойки.
  9. Если таймаут истекает до того как получим распознанный текст будет получен пустой результат, действие не завершается с ошибкой.

Действие отправляет на проверку документы и сразу получает результаты:

Пример использования

Задача

Распознать текст на документе.

Решение

Использовать действие "Распознать". 

Реализация

  1. Установить действие "Распознать и получить результат" на рабочую область.
  2. Заполнить параметры действия корректными данными.

  3. Запустить робота по кнопке "Старт" в верхней панели. 

Результат

Робот вернул обработанные файлы. Результат представлен в виде коллекции с  json-объектами или xml-контекстами. Статус "export".