История страницы

Распознать Версия

...

2 (

...

Net)

...

Описание

Извлечение текста из файла с помощью сервиса Робин OCR с Сойкой

Image Removed

Настройки

Действие отправляет изображения в сервис SOICA и получает результаты распознавания

Иконка действия

Image Added

Параметры и их настройки

Свойство

Англ. наименование

Свойство

Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры

URL


URL	Ссылка для

аутентификации на

аутентификации в сервисе

Сойки

SOICA	Robin.String	http://localhost/administrator	Да
Логин

Login

Логин для входа	Robin.String	admin	Да
Пароль

Password

Пароль для входа	Robin.Password	admin	Да
Класс пакета

Class

	Класс пакета, которым будет обрабатываться сценарий	Robin.String.	Имя класса пакета	Да
Файл

File

	Путь к файлу, из которого необходимо извлечь текст. Поддерживаемые форматы изображений:

JPEG

jpg,

PDF

pdf,

TIFF

tiff,

BMP

bmp,

PNG

png,

DOCX

docx,

GIF

gif	Robin.FilePath.	C:\Users\Документ\1.jpg	Да
Тип результата

Result type

Формат, в котором будут представлены результаты

Выпадающий список из элементов: XML, JSON

Значение по умолчанию: XML

Robin.String

JSON

Нет

Профиль распознавания

Profile

	Профиль распознавания для получения результатов Профили создаются в самой

Сойке

SOICA и пользователь заранее знает, какой необходимо выбрать. Значение по умолчанию задается системой при создании класса пакетов и называется default	Robin.String	default	Нет
Тайм-аут

Time out

, мс	Время в миллисекундах, в течение которого

будет происходить работа действия

Результаты
действие будет ожидать ответ от сервиса SOICA	Robin.Numeric	1000000	Нет
Результат

Result

Коллекция json-объектов или xml-контекстов, содержащих

распознанные данные

распознанные данные. Если

распознание документа еще в процессе, то результат не заполнен

истек указанный тайм-аут, а сервис не закончил распознавание, этот параметр вернется пустым	Robin.Collection
Статус

Status

Статус распознавания документа

Robin.String

Особые условия использования

Робот вернет ошибку, если:

неверно указан путь, ссылка - 404
неверный логин или пароль подключения. 403
выбранный сценарий обработки не подходит. 401
внутренняя ошибка сервера -500.
личные данные и ID документа не принадлежат одному пользователю.

Пример использования

Задача: распознать текст на документе.

Решение: использовать действие "Распознать".

Image Removed

Реализация:

Установить действие "Распознать" на рабочую область.
Заполнить параметры действия корректными данными.
Image Removed
Запустить робота по кнопке "Старт" в верхней панели.
Image Removed

Результат: Робот вернул обработанные файлы. Результат представлен в виде коллекции с json-объектами или xml-контекстами. Статус "export".

Image Removed

Общие принципы работы с ROBIN OCR

...

Для отправки документа на распознавание нужно выполнить минимум 2 запроса. Сначала отправляется запрос на создание пакета, в запрос передается единственное изображение пакета или первое. Запрос возвращает GUID пакета. Если изображений в пакете должно быть несколько, то в последующих запросах эти изображения добавляются к пакету (по одному). Завершающим запросом надо запустить пакет на обработку. Во второй и последующие запросы передается GUID созданного пакета.
Формат результата настраивается заранее, в сценарии.
Пользователь будет получать результат в виде коллекции json-объектов или xml-контекстов. С полученными результатами можно работать действиями студии.
Список классов пакета пользователь должен знать перед запуском действия.
Классы пакетов будут настроены в системе инженером, нужно выбрать класс, подходящий для обработки изображения. Имя класса пакета - это имя настроенного проекта. Имя класса пакета нужно указывать при создании пакета (обязательно). Имя пакета надо задавать в запросе.
Когда робот будет завершать работу с ошибкой, в тексте ошибки будет отображаться причина.
Если статус документа не "export", то робот не сможет получить результат и пропустит документ. Пользователь сам должен будет передвинуть документ в статус "экспорт" на сервере. Нужно провести валидацию файла вручную и отправить его на экспорт, путем внесения и принятия изменений в нем.
Статусы:
import –
...
импорт =
...
> ждать смены статуса;
recognize –
...
распознавание =>ждать смены статуса;
validation – валидация=
...
> вручную менять статус в системе Сойки;
export –
...
экспорт => готово к выгрузке, можно запускать действие "Получить статус распознавания";
deleted - пакет был
...
удален, ждать смены статуса;
inaccessible - пакет недоступен, ждать смены статуса;
quality control - если пользователь отправил по неправильному сценарию, вручную менять статус в системе Сойки.
Если таймаут истекает до того как получим распознанный текст будет получен пустой результат, действие не завершается с ошибкой.
Действие отправляет на проверку документы и сразу получает результаты:
rest-сервис экспорта отвечает за получение результата;
json или xml результат будет. Это настраивается внутри сценария обработки пакета в Сойке;
В действии надо вернуть не строку, а json-объект или сразу xml-контекст. Xml контекст нужно закрывать, Json не надо;
Документ предварительно должен быть выгружен модулем экспорта;
Действие должно ожидать пока статус документа станет "export". Тогда только запускать получение результата.

Пример использования

Задача

Распознать текст на документе.

Решение

Использовать действие "Распознать".

Реализация

Установить действие "Распознать и получить результат" на рабочую область.
Заполнить параметры действия корректными данными.
Image Added
Запустить робота по кнопке "Старт" в верхней панели.

Результат

Робот вернул обработанные файлы. Результат представлен в виде коллекции с json-объектами или xml-контекстами. Статус "export".
Image Added

Интерфейс Сойки.

Аутентификация:

При первом подключении необходимо заходить через браузер, chrome предпочтительно. admin, admin.
Для получения доступа к функциям rest-сервиса требуется аутентификация – BasicHttpAuth, логин и пароль передаются в заголовке http, при этом логин в открытом виде, а пароль – зашифрованный MD5.
Можно сохранить учетную запись в браузере. у пользователя есть доступ только к определенным действиям, это настраивается при регистрации.
В двух вкладках открывают сразу же 2 модуля. Модуль администратора: http://localhost/administrator. Модуль валидации: http://localhost/validation.

Аутентификация при подключении через браузер - обязательная процедура для каждого пользователя. Личный логин и пароль пользователей связан с личными настроенными сценариями.

Image Removed

Просмотр и валидация документа

Image Removed

В режиме просмотра default с зажатой клавишей Shift можно выделить область, чтобы внести в нее правки.

Image Removed

Когда правки применены, изменения отражаются в системе.

Image Removed

Когда пользователь сохранил изменения, пакет документ был принят пользователем, статус документа изменился с "валидации" на "экспорт".

Файл прошел валидацию вручную.

Image Removed

Файл получил статус "Экспорт".

Image Removed

Способы обработки результата

Встроенные в студию действия по работе с JSON - файлами.

Image Removed

Пример составленной цепочки действий для обработки результата. Для распараллеливания процессов распознавания изображений можно использовать Очереди.

Image Removed

Представленные для текущего пользователя классы пакетов.

Image Removed

Профиль распознавания по умолчанию -default. Интерфейс настройки профиля распознавания.

Image Removed

Пример исходного файла.

Image Removed

Пример результирующего файла.

Составим последовательность действий, чтобы файл сохранился на компьютер.

Image Removed

Результат в виде json-файла. Нет необходимости сохранять полученный файл. Его можно сразу же обрабатывать действиями студии.

Image Removed

Действия студии, если результат получен в виде xml-файла. Далее можно воспользоваться действием "Получить элементы по XPath", чтобы получить необходимые для дальнейшей работы значения.

Image Removed

Дерево страниц

Сравнение версий

Старая версия 7

Новая версия Текущий

Ключ

Распознать Версия

2 (

Net)

Описание

Настройки

Действие отправляет изображения в сервис SOICA и получает результаты распознавания

Иконка действия

Параметры и их настройки

Особые условия использования

Пример использования

Общие принципы работы с ROBIN OCR

Пример использования

Задача

Решение

Реализация

Результат

Аутентификация:

Просмотр и валидация документа

Способы обработки результата