Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Извлечение текста из файла с помощью сервиса Робин OCR с Сойкой.

Image RemovedImage Added

Настройки 

Свойство

Англ. наименование

Описание

Тип

Пример заполненияОбязательность заполнения поля
Параметры

URL

URLСсылка для аутентификации на сервисе Сойки.Robin.String http://localhost/administratorДа
Логин
Login

Логин для входа.

Robin.StringadminДа
ПарольPasswordПароль для входа.Robin.PasswordadminДа
Класс пакетаClassКласс пакета, которым будет обрабатываться сценарий.Robin.String.Имя класса пакетаДа

Файл


FileПуть к файлу, из которого необходимо извлечь текст. Поддерживаемые форматы изображений: JPEG, PDF, TIFF, BMP, PNG, DOCX, GIF.

Robin.FilePath. 

C:\Users\Документ\1.jpgДа

Тип результата

Result type

Формат, в котором будут представлены результаты.



Выпадающий список из элементов: XML, JSON.

Значение по умолчанию: XML.

Robin.StringJSONНет
Профиль распознаванияProfile

Профиль распознавания для получения результатов.


Профили создаются в самой Сойке и пользователь заранее знает, какой необходимо выбрать. Значение по умолчанию задается системой при создании класса пакетов и называется default.
Robin.StringdefaultНет
Тайм-аутTime outВремя в миллисекундах, в течение которого будет происходить работа действия.Robin.Numeric1000000Нет
Результаты

Результат

Result

Коллекция json-объектов или xml-контекстов, содержащих распознанные данные. Если распознание документа еще в процессе, то результат не заполнен.

Robin.Collection


СтатусStatusСтатус распознавания документа.Robin.String

...

Пример использования

Задача: распознать текст на документе.

Решение: использовать действие "Распознать"


Реализация:

  1. Установить действие "Распознать" на рабочую область.
  2. Заполнить параметры действия корректными данными. 

    Image Modified

  3. Запустить робота по кнопке "Старт" в верхней панели. 
    Image Modified

Результат: Робот вернул обработанные файлы. Результат представлен в виде коллекции с  json-объектами или xml-контекстами. Статус "export".

Image Modified

Общие принципы работы с ROBIN OCR:

  1. Для отправки документа на распознавание нужно выполнить минимум 2 запроса. Сначала  отправляется запрос на создание пакета, в запрос передается единственное изображение пакета или первое. Запрос возвращает GUID пакета. Если изображений в пакете должно быть несколько, то в последующих запросах эти изображения добавляются к пакету (по одному). Завершающим запросом надо запустить пакет на обработку. Во второй и последующие запросы передается GUID созданного пакета.

  2. Формат результата настраивается заранее, в сценарии.

  3. Пользователь будет получать результат в виде коллекции json-объектов или xml-контекстов. С полученными результатами можно работать действиями студии.

  4. Список классов пакета пользователь должен знать перед запуском действия.

  5. Классы пакетов будут настроены в системе инженером, нужно выбрать класс, подходящий для обработки изображения. Имя класса пакета - это имя настроенного проекта. Имя класса пакета нужно указывать при создании пакета (обязательно). Имя пакета надо задавать в запросе. 

  6. Когда робот будет завершать работу с ошибкой, в тексте ошибки будет отображаться причина. 

  7. Если статус документа не "export", то робот не сможет получить результат и пропустит документ. Пользователь сам должен будет передвинуть документ в статус "экспорт" на сервере. Нужно провести валидацию файла вручную и отправить его на экспорт, путем внесения и принятия изменений в нем.

  8. Статусы: 

    1. import – импорт => ждать смены статуса
    2. recognize – распознавание =>ждать смены статуса
    3. validation – валидация=> вручную менять статус в системе Сойки
    4. export – экспорт => готово к выгрузке
    5. deleted - пакет был удален 
    6. inaccessible - пакет недоступен
    7. quality control -  если пользователь отправил по неправильному сценарию, вручную менять статус в системе Сойки.
  9. Если таймаут истекает до того как получим распознанный текст будет получен пустой результат, действие не завершается с ошибкой.

Интерфейс Сойки. 

Аутентификация:

  1. При первом подключении необходимо заходить через браузер, chrome предпочтительно. admin, admin.

  2. Для получения доступа к функциям rest-сервиса требуется аутентификация – BasicHttpAuth, логин и пароль передаются в заголовке http, при этом логин в открытом виде, а пароль – зашифрованный MD5.

  3. Можно сохранить учетную запись в браузере. у пользователя есть доступ только к определенным действиям, это настраивается при регистрации.

  4. В двух вкладках открывают сразу же 2 модуля. Модуль администратора: http://localhost/administrator. Модуль валидации: http://localhost/validation

 Аутентификация при подключении через браузер - обязательная процедура для каждого пользователя. Личный логин и пароль пользователей связан с личными настроенными сценариями.

 

Просмотр и валидация документа

В режиме просмотра default с зажатой клавишей Shift можно выделить область, чтобы внести в нее правки. 

Когда правки применены, изменения отражаются в системе. 

Когда пользователь сохранил изменения, пакет документ был принят пользователем, статус документа изменился с "валидации" на "экспорт".


Файл прошел валидацию вручную. 


Файл получил статус "Экспорт".

Способы обработки результата

Встроенные в студию действия по работе с JSON - файлами.

Пример составленной цепочки действий для обработки результата. Для распараллеливания процессов распознавания изображений можно использовать Очереди. 


Представленные для текущего пользователя классы пакетов.

Профиль распознавания по умолчанию -default. Интерфейс настройки профиля распознавания.

Пример исходного файла. 


Пример результирующего файла.

Составим последовательность действий, чтобы файл сохранился на компьютер.

 

Результат в виде json-файла. Нет необходимости сохранять полученный файл. Его можно сразу же обрабатывать действиями студии.

Действия студии, если результат получен в виде xml-файла. Далее можно воспользоваться действием "Получить элементы по XPath", чтобы получить необходимые для дальнейшей работы значения.