История страницы
Распознать Версия
...
2 (
...
Net)
...
Описание
Извлечение текста из файла с помощью сервиса Робин OCR с Сойкой
Настройки
Действие отправляет изображения в сервис SOICA и получает результаты распознавания
Иконка действия
Параметры и их настройки
Свойство
Англ. наименование
Свойство |
---|
Описание | Тип | Пример заполнения | Обязательность заполнения поля | |
---|---|---|---|---|
Параметры |
URL | Ссылка для |
аутентификации в сервисе |
SOICA | Robin.String | http://localhost/administrator | Да |
Логин |
Login
Логин для входа | Robin.String | admin | Да |
Пароль |
Пароль для входа | Robin.Password | admin | Да |
Класс пакета |
Класс пакета, которым будет обрабатываться сценарий | Robin.String. | Имя класса пакета | Да | |
Файл |
Путь к файлу, из которого необходимо извлечь текст. Поддерживаемые форматы изображений: |
jpg, |
pdf, |
tiff, |
bmp, |
png, |
docx, |
gif | Robin.FilePath. | C:\Users\Документ\1.jpg | Да |
Тип результата |
Формат, в котором будут представлены результаты Выпадающий список из элементов: XML, JSON Значение по умолчанию: XML | Robin.String | JSON | Нет | |
Профиль распознавания |
Профиль распознавания для получения результатов Профили создаются в самой |
SOICA и пользователь заранее знает, какой необходимо выбрать. Значение по умолчанию задается системой при создании класса пакетов и называется default | Robin.String | default | Нет |
Тайм-аут |
, мс | Время в миллисекундах, в течение которого |
действие будет ожидать ответ от сервиса SOICA | Robin.Numeric | 1000000 | Нет | |
Результаты | ||||
---|---|---|---|---|
Результат |
Result
Коллекция json-объектов или xml-контекстов, содержащих |
распознанные данные. Если |
истек указанный тайм-аут, а сервис не закончил распознавание, этот параметр вернется пустым | Robin.Collection | ||
Статус |
Статус распознавания документа | Robin.String |
Особые условия использования
Робот вернет ошибку, если:
неверно указан путь, ссылка - 404
неверный логин или пароль подключения. 403
выбранный сценарий обработки не подходит. 401
внутренняя ошибка сервера -500.
личные данные и ID документа не принадлежат одному пользователю.
Пример использования
Задача: распознать текст на документе.
Решение: использовать действие "Распознать".
Реализация:
- Установить действие "Распознать" на рабочую область.
Заполнить параметры действия корректными данными.
- Запустить робота по кнопке "Старт" в верхней панели.
Результат: Робот вернул обработанные файлы. Результат представлен в виде коллекции с json-объектами или xml-контекстами. Статус "export".
Общие принципы работы с ROBIN OCR
...
Для отправки документа на распознавание нужно выполнить минимум 2 запроса. Сначала отправляется запрос на создание пакета, в запрос передается единственное изображение пакета или первое. Запрос возвращает GUID пакета. Если изображений в пакете должно быть несколько, то в последующих запросах эти изображения добавляются к пакету (по одному). Завершающим запросом надо запустить пакет на обработку. Во второй и последующие запросы передается GUID созданного пакета.
Формат результата настраивается заранее, в сценарии.
Пользователь будет получать результат в виде коллекции json-объектов или xml-контекстов. С полученными результатами можно работать действиями студии.
Список классов пакета пользователь должен знать перед запуском действия.
Классы пакетов будут настроены в системе инженером, нужно выбрать класс, подходящий для обработки изображения. Имя класса пакета - это имя настроенного проекта. Имя класса пакета нужно указывать при создании пакета (обязательно). Имя пакета надо задавать в запросе.
Когда робот будет завершать работу с ошибкой, в тексте ошибки будет отображаться причина.
Если статус документа не "export", то робот не сможет получить результат и пропустит документ. Пользователь сам должен будет передвинуть документ в статус "экспорт" на сервере. Нужно провести валидацию файла вручную и отправить его на экспорт, путем внесения и принятия изменений в нем.
Статусы:
- import –
...
- импорт =
...
- > ждать смены статуса;
- recognize –
...
- распознавание =>ждать смены статуса;
- validation – валидация=
...
- > вручную менять статус в системе Сойки;
- export –
...
- экспорт => готово к выгрузке, можно запускать действие "Получить статус распознавания";
- deleted - пакет был
...
- удален, ждать смены статуса;
- inaccessible - пакет недоступен, ждать смены статуса;
- quality control - если пользователь отправил по неправильному сценарию, вручную менять статус в системе Сойки.
- Если таймаут истекает до того как получим распознанный текст будет получен пустой результат, действие не завершается с ошибкой.
Действие отправляет на проверку документы и сразу получает результаты:
- rest-сервис экспорта отвечает за получение результата;
- json или xml результат будет. Это настраивается внутри сценария обработки пакета в Сойке;
- В действии надо вернуть не строку, а json-объект или сразу xml-контекст. Xml контекст нужно закрывать, Json не надо;
- Документ предварительно должен быть выгружен модулем экспорта;
- Действие должно ожидать пока статус документа станет "export". Тогда только запускать получение результата.
Пример использования
Задача
Распознать текст на документе.
Решение
Использовать действие "Распознать".
Реализация
- Установить действие "Распознать и получить результат" на рабочую область.
Заполнить параметры действия корректными данными.
- Запустить робота по кнопке "Старт" в верхней панели.
Результат
Робот вернул обработанные файлы. Результат представлен в виде коллекции с json-объектами или xml-контекстами. Статус "export".
Интерфейс Сойки.
Аутентификация:
При первом подключении необходимо заходить через браузер, chrome предпочтительно. admin, admin.
Для получения доступа к функциям rest-сервиса требуется аутентификация – BasicHttpAuth, логин и пароль передаются в заголовке http, при этом логин в открытом виде, а пароль – зашифрованный MD5.
Можно сохранить учетную запись в браузере. у пользователя есть доступ только к определенным действиям, это настраивается при регистрации.
В двух вкладках открывают сразу же 2 модуля. Модуль администратора: http://localhost/administrator. Модуль валидации: http://localhost/validation.
Аутентификация при подключении через браузер - обязательная процедура для каждого пользователя. Личный логин и пароль пользователей связан с личными настроенными сценариями.
Просмотр и валидация документа
В режиме просмотра default с зажатой клавишей Shift можно выделить область, чтобы внести в нее правки.
Когда правки применены, изменения отражаются в системе.
Когда пользователь сохранил изменения, пакет документ был принят пользователем, статус документа изменился с "валидации" на "экспорт".
Файл прошел валидацию вручную.
Файл получил статус "Экспорт".
Способы обработки результата
Встроенные в студию действия по работе с JSON - файлами.
Пример составленной цепочки действий для обработки результата. Для распараллеливания процессов распознавания изображений можно использовать Очереди.
Представленные для текущего пользователя классы пакетов.
Профиль распознавания по умолчанию -default. Интерфейс настройки профиля распознавания.
Пример исходного файла.
Пример результирующего файла.
Составим последовательность действий, чтобы файл сохранился на компьютер.
Результат в виде json-файла. Нет необходимости сохранять полученный файл. Его можно сразу же обрабатывать действиями студии.
Действия студии, если результат получен в виде xml-файла. Далее можно воспользоваться действием "Получить элементы по XPath", чтобы получить необходимые для дальнейшей работы значения.