Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Оглавление
maxLevel2
Общие принципы работы с

General principles of working with ROBIN OCR

...

Для отправки документа на распознавание нужно выполнить минимум 2 запроса. Сначала  отправляется запрос на создание пакета, в запрос передается единственное изображение пакета или первое. Запрос возвращает GUID пакета. Если изображений в пакете должно быть несколько, то в последующих запросах эти изображения добавляются к пакету (по одному). Завершающим запросом надо запустить пакет на обработку. Во второй и последующие запросы передается GUID созданного пакета.

...

Формат результата настраивается заранее, в сценарии.

...

Пользователь будет получать результат в виде коллекции json-объектов или xml-контекстов. С полученными результатами можно работать действиями студии.

...

Список классов пакета пользователь должен знать перед запуском действия.

...

Классы пакетов будут настроены в системе инженером, нужно выбрать класс, подходящий для обработки изображения. Имя класса пакета - это имя настроенного проекта. Имя класса пакета нужно указывать при создании пакета (обязательно). Имя пакета надо задавать в запросе. 

...

Когда робот будет завершать работу с ошибкой, в тексте ошибки будет отображаться причина. 

...

Если статус документа не "export", то робот не сможет получить результат и пропустит документ. Пользователь сам должен будет передвинуть документ в статус "экспорт" на сервере. Нужно провести валидацию файла вручную и отправить его на экспорт, путем внесения и принятия изменений в нем.

...

Статусы: 

  1. import – импорт => ждать смены статуса
  2. recognize – распознавание =>ждать смены статуса
  3. validation – валидация=> вручную менять статус в системе Сойки
  4. export – экспорт => готово к выгрузке
  5. deleted - пакет был удален 
  6. inaccessible - пакет недоступен
  7. quality control -  если пользователь отправил по неправильному сценарию, вручную менять статус в системе Сойки.

  1. To send a document for recognition, at least 2 requests must be made. First, a request to create a package is sent, the only image of the package or the first image of the package is passed to the request. The request returns the GUID of the package. If there are several images in the package, then in subsequent requests these images are added to the package (one by one). The final request is to start the package for processing. The GUID of the created package is passed to the second and subsequent requests.

  2. The format of the result is customized in advance, in the script.

  3. The user will receive the result as a collection of json objects or xml-contexts. Studio actions can work with the obtained results.

  4. The list of package classes the user needs to know before running the action.

  5. Package classes will be configured in the system by the engineer, you need to select a class suitable for image processing. Package class name is the name of the customized project. Package class name must be specified when creating a package (mandatory). Package name must be specified in the request. 

  6. When the robot finalizes an error, the error text will display the reason for the error. 

  7. If the status of the document is not "export", the robot will not be able to get the result and will skip the document. The user himself will have to move the document to the "export" status on the server. It is necessary to validate the file manually and send it for export by making and accepting changes in it.

  8. Statuses: 

    1. import - wait for status change
    2. recognize - wait for status change
    3. validation - manually change status in the Soika system
    4. export - ready for upload
    5. deleted - the package has been deleted 
    6. inaccessible - the package is unavailable
    7. quality control - if the user has sent by wrong script, manually change the status in the Soika system.
  9. If the timeout expires before we get the recognized text an empty result will be obtained, the action will not terminate with an error.


Soika interface. 

Authentication

  1. When connecting for the first time, you must log in through your browser, chrome is preferred. admin, admin.

  2. To access rest-service functions, authentication is required - BasicHttpAuth, login and password are passed in the http header, with the login in plaintext and the password encrypted MD5.

  3. You can save the account in the browser. the user only has access to certain actions, this is set during registration.

  4. Two tabs open 2 modules at once. Administrator module:

...

Интерфейс Сойки. 

Аутентификация:

  1. При первом подключении необходимо заходить через браузер, chrome предпочтительно. admin, admin.

  2. Для получения доступа к функциям rest-сервиса требуется аутентификация – BasicHttpAuth, логин и пароль передаются в заголовке http, при этом логин в открытом виде, а пароль – зашифрованный MD5.

  3. Можно сохранить учетную запись в браузере. у пользователя есть доступ только к определенным действиям, это настраивается при регистрации.

  4. В двух вкладках открывают сразу же 2 модуля. Модуль администратора: http://localhost/administrator. Модуль валидацииValidation module:   http://localhost/validation

 Аутентификация при подключении через браузер - обязательная процедура для каждого пользователя. Личный логин и пароль пользователей связан с личными настроенными сценариямиAuthentication when connecting via browser is a mandatory procedure for each user. User personal login and password are linked to personal customized scripts.

Image Modified Image Modified

Просмотр и валидация документа. 

Document review and validation

Image Modified

В режиме просмотра default с зажатой клавишей Shift можно выделить область, чтобы внести в нее правкиIn default view with the Shift key held down, you can select an area to make edits to it

Image Modified

Когда правки применены, изменения отражаются в системеWhen the edits are applied, the changes are reflected in the system

Image Modified

Когда пользователь сохранил изменения, пакет документ был принят пользователем, статус документа изменился с "валидации" на "экспорт".

When the user saved the changes, the document package was accepted by the user, the status of the document changed from "validation" to "export".



The file was validated manuallyФайл прошел валидацию вручную


Image Modified


 


The file has been given the status "ExportФайл получил статус "Экспорт".


Image Modified

Способы обработки результата.

Встроенные в студию действия по работе с JSON - файлами.

Image Removed

Пример составленной цепочки действий для обработки результата. Для распараллеливания процессов распознавания изображений можно использовать Очереди. 

Image Removed

Представленные для текущего пользователя классы пакетов.

Image Removed

Профиль распознавания по умолчанию -default. Интерфейс настройки профиля распознавания.

Image Removed

Пример исходного файла. 

Image Removed

Пример результирующего файла.

Составим последовательность действий, чтобы файл сохранился на компьютер.

Image Removed 

Результат в виде json-файла. Нет необходимости сохранять полученный файл. Его можно сразу же обрабатывать действиями студии.

Image Removed

Действия студии, если результат получен в виде xml-файла. Далее можно воспользоваться действием "Получить элементы по XPath", чтобы получить необходимые для дальнейшей работы значения.

Image Removed

Действие "Отправить на распознавание" / "Send files for recognition"

Действие отправляет файл на распознавание во внешнее приложение Soica.

Первое действие из связки Отправить+Получить. Отправить файл на распознавание и Получить результат распознавания разделено на 2 действия для случаев, когда система будет долго обрабатывать большой файл, поданный на вход. 

Настройки 

Ways of processing the result

Built-in studio actions to work with JSON - files.

Image Added

An example of a composed chain of actions for processing the result. You can use Queues to parallelize image recognition processes. 

Image Added

 

The package classes presented for the current user.

Image Added

The default recognition profile is -default. Recognition profile configuration interface.

Image Added

Example of a source file. 

Image Added

 

Example of the resulting file.

Make a sequence of actions to save the file to the computer.

Image Added 

The result is in the form of a json file. There is no need to save the resulting file. It can be immediately processed by studio actions.

Image Added

Studio actions if the result is received as an xml file. Then you can use the "Get items by XPath" action to get the values necessary for further work.

Image Added

 

Send files for recognition action

The action sends the file to an external Soica application for recognition.

The first action in the Send+Receive bundle. Send file for recognition and Receive recognition result is split into 2 actions for cases when the system will take a long time to process a large input file. 

Settings

PropertyDescriptionTypeFilling exampleMandatory field
Parameters
URLLink for authentication on the Soika service

Свойство

Англ. наименование

Описание

Тип

Пример заполненияОбязательность заполнения поляПараметры

URL

URLСсылка для аутентификации на сервисе Сойки
.Robin.String.  http://localhost/administrator
Да
Yes
Логин
Login

Login

Логин для входа.

Robin.String. admin
Да
Yes
Пароль
PasswordPassword
Пароль для входа.
Robin.Password. admin
ДаКласс пакета
Yes
Class
Класс пакета, которым будет обрабатываться сценарий
The package class that the script will be processed by.Robin.String. 
Имя класса пакетаДаФайлFileПуть к файлу, из которого необходимо извлечь текст. Поддерживаемые форматы изображений
Package class nameYes
FilePath to the file from which you want to extract text. Supported image formats: JPEG, PDF, TIFF, BMP, PNG, DOCX, GIF.Robin.FilePath. 


C:\Users\Документ\1.jpg
Да
Yes
Результаты
Results

ID

ID

Идентификационный номер пакета

Package identification number

Robin.String. 

Особые условия использования

Нужно заранее получить данные для аутентификации в сервисе Сойки.

Если за 120 секунд сервер не отправил ответ, то сервер недоступен.

Робот вернет ошибку, если:

  1. в поле "Файл" подается неверный формат.

  2. неверный логин или пароль подключения. 403

  3. неверно указан путь, ссылка - 404

Действие "Получить результат распознавания" / "Get recognition result"

Извлечение текста из файла файла изображения с использованием пред-настроенного профиля распознавания.

Image Removed

Настройки 



Special conditions of use

  1. You need to get the authentication details in advance from the Soika service.
  2. If the server has not sent a response in 120 seconds, the server is unavailable.
  3. The robot will return an error if:
    1. an incorrect format is entered in the "File" field.
    2. incorrect login or password for the connection, link -403
    3. wrong path, link - 404

...

Get recognition result action

Extract text from an image file using a pre-configured recognition profile.

 

Image Added

 

Settings


PropertyDescriptionTypeFilling exampleMandatory field
Parameters
URLLink for authentication on the Soika service

Свойство

Англ. наименование

Описание

Тип

Пример заполненияОбязательность заполнения поляПараметры

URL

URLСсылка для аутентификации на сервисе Сойки
.Robin.String http://localhost/administrator
Да
Yes
Логин
Login

Login

Логин для входа.

Robin.Stringadmin
Да
Yes
Пароль
PasswordPassword
Пароль для входа.
Robin.Passwordadmin
Да
Yes

ID

ID

Идентификационный номер пакета
Package identification numberRobin.String65434
ДаТип результата
Yes
Result type

Формат, в котором будут представлены результаты.

The format in which the results will be presented.



Dropdown list of elements

Выпадающий список из элементов

: XML, JSON.

Значение по умолчанию

Default value: XML.

Robin.StringJSON
НетПрофиль распознавания
No
Profile
Профиль распознавания для получения результатов.Профили создаются в самой Сойке и пользователь заранее знает, какой необходимо выбрать. Значение по умолчанию задается системой при создании класса пакетов и называется
Recognition profile for results.

Profiles are created in Soika itself and the user knows in advance which one to choose. The default value is set by the system when creating a package class and is called default.
Robin.Stringdefault
Нет
No
РезультатыРезультат
Results

Result

Коллекция json-объектов или xml-контекстов, содержащих распознанные данные. Если распознание документа еще в процессе, то результат не заполнен

A collection of json objects or xml-contexts containing recognized data. If document recognition is still in process, the result is not filled in.

Robin.Collection

Статус



Status
Статус распознавания документа
The status of document recognition.


Robin.String

Особые условия использования

Необходимо запустить действие "Отправить на распознавание" перед действием "Получить результат распознавания".

Чтобы получить результат, нужно чтобы файл был распознан системой и переведен в статус  "export". Если робот при проверке статуса документа робот получил любой статус, кроме "export", то робот вернет полученный статус документа и пустой файл результата распознавания.

Если за 120 секунд сервер не отправил ответ, то сервер недоступен.

Робот вернет ошибку, если:

  1. неверно указан путь, ссылка - 404

  2. неверный логин или пароль подключения. 403

  3. выбранный сценарий обработки не подходит. 401

  4. внутренняя ошибка сервера -500.

  5. личные данные и ID документа не принадлежат одному пользователю.



Special conditions of use

  1. It is necessary to run the "Send for recognition" action before the "Get recognition result" action.
  2. To get the result, the file must be recognized by the system and set to the "export" status. If the robot has received any status other than "export" when checking the document status, the robot will return the received document status and an empty recognition result file.
  3. If the server has not sent a response in 120 seconds, the server is unavailable.
  4. The robot will return an error if:
    1. wrong path, link - 404
    2. Incorrect login or password for connection, link -403
    3. the selected processing script is not suitable, link -401
    4. internal server error, link -500.
    5. personal data and document ID do not belong to the same user.
 

The robot will NOT return an error if:

  • no text found on the image.
  • text is not recognized on the image.
  • statuses

Робот НЕ вернет ошибку, если:

  • на изображении не найден текст.
  • на изображении не распознан текст.
  • статусы
  • "quality control", "validation",
  • который нужно менять вручную
  • which must be changed manually =>
  • вызвать rest api для перевода в другой модуль или открыть пакет на валидации, исправить ошибки и отправить его на экспорт.

Во всех этих случаях робот вернет пустой результат распознавания файла.

Если неверно указан язык текста, настроенный в алгоритме, то результатом, возможно, будет не пустая строка, совпадающие символы из алфавита.

Действие "Распознать" / "Recognize files"

Извлечение текста из файла.

Настройки 

  • call rest api for translation to another module or open the package on validation, correct errors and send it for export.

In all these cases, the robot will return an empty file recognition result.

If the text language configured in the algorithm is specified incorrectly, the result will probably be a non-empty string, matching characters from the alphabet.


 

Recognize files action

Extract text from a file.

Settings

PropertyDescriptionTypeFilling exampleMandatory field
Parameters
URLLink for authentication on the Soika service

Свойство

Англ. наименование

Описание

Тип

Пример заполненияОбязательность заполнения поляПараметры

URL

URLСсылка для аутентификации на сервисе Сойки
.Robin.String http://localhost/administrator
Да
Yes
Логин
Login

Login

Логин для входа.

Robin.Stringadmin
Да
Yes
Пароль
PasswordPassword
Пароль для входа.
Robin.Passwordadmin
Да
Yes
Класс пакетаClassКласс пакета, которым будет обрабатываться сценарий
ClassThe package class that the script will be processed by.Robin.String.Имя класса пакета
ДаФайл
Yes
File
Путь к файлу, из которого необходимо извлечь текст. Поддерживаемые форматы изображений
Path to the file from which you want to extract text. Supported image formats: JPEG, PDF, TIFF, BMP, PNG, DOCX, GIF.

Robin.FilePath. 

C:\Users\Документ\1.jpg
Да
Yes

Тип результата

Result type

Формат, в котором будут представлены результаты.

The format in which Results will be presented.



Drop-down list of elements

Выпадающий список из элементов

: XML, JSON.

Значение по умолчанию

Default value: XML.

Robin.StringJSON
Нет
No
Профиль распознавания
Profile

Профиль распознавания для получения результатов.

Профили создаются в самой Сойке и пользователь заранее знает, какой необходимо выбрать. Значение по умолчанию задается системой при создании класса пакетов и называется

Recognition profile for results.


Profiles are created in Soika itself and the user knows in advance which one to choose. The default value is set by the system when creating a package class and is called default.
Robin.Stringdefault
НетТайм-аут
No
Time outВремя в миллисекундах, в течение которого будет происходить работа действия.Robin.Numeric1000000
Нет
No
Результаты
Results

Результат

Result

Коллекция json-объектов или xml-контекстов, содержащих распознанные данные. Если распознание документа еще в процессе, то результат не заполнен

A collection of json objects or xml-contexts containing recognized data. If document recognition is still in process, the result is not filled in.

Robin.Collection
Статус


Status
Статус распознавания документа
The status of document recognition.


Robin.String

Особые условия использования

Робот вернет ошибку, если:

...

неверно указан путь, ссылка - 404

...

неверный логин или пароль подключения. 403

...

выбранный сценарий обработки не подходит. 401

...

внутренняя ошибка сервера -500.



Special conditions of use

  1. The robot will return an error if:
    1. wrong path, link - 404
    2. Incorrect login or password for connection, link -403
    3. the selected processing script is not suitable, link -401
    4. internal server error, link -500.
    5. personal data and document ID do not belong to the same user
  2. If no timeout is specified, 1 status request is called. If a timeout is specified and no result is received at the end of the timeout, the last known status and an empty result will be returned.

Examples of use

Send + receive

Task 

Recognize the text on the document and retain the ability to perform any other actions while the input document is being processed.

Solution

Use the actions "Send for recognition", "Get the result of the recognition". 

Image Added

Implementation

  1. Sequentially set the "Send for recognition" and "Get the result of the recognition" actions to the workspace.
  2. Fill in the action parameters with the correct data:
    1. "Send for recognition" parameters; 
      Image Added
       
    2. "Get the result of the recognition" parameters. 
      Image Added


  3. Launch the robot using the "Start" button in the top panel.
    Image Added

Result

The robot will return the processed files. The result is represented as a collection with json objects or xml contexts. Export status.

Image Added

Image Added

Recognize

Task

Recognize text in a document.

Solution

Use the action "Recognize". 

Image Added

Implementation

  1. Set the "Recognize" action to the workspace.

  2. Fill the action parameters with correct data. 
    Image Added

  3. Launch the robot using the "Start" button in the top panel.
    Image Added

Result

The robot returned the processed files. The result is represented as a collection with json objects or xml contexts. Export status

личные данные и ID документа не принадлежат одному пользователю.

Если тайм-аута нет, то вызывается 1 запрос на получение статуса. Если тайм-аут указан и по его завершению не был получен результат, то вернется последний известный статус и пустой результат.

Примеры использования

Отправить + получить

Задача: распознать текст на документе и сохранить возможность выполнять еще какие либо действия, пока происходит обработка поданного на вход документа.

Решение: использовать действия «Отправить на распознавание», "Получить результат распознавания".

Image Removed

Реализация:

...

Результат: Робот вернет обработанные файлы. Результат представлен в виде коллекции с  json-объектами или xml-контекстами. Статус "export".

Image Removed

Image Removed

Распознать

Задача: распознать текст на документе.

Решение: использовать действие "Распознать"

Image Removed

Реализация:

  1. Установить действие "Распознать"на рабочую область.
  2. Заполнить параметры действия корректными данными. 

    Image Removed

  3. Запустить робота по кнопке "Старт" в верхней панели. 
    Image Removed

Результат: Робот вернул обработанные файлы. Результат представлен в виде коллекции с  json-объектами или xml-контекстами. Статус "export".