История страницы
Общие принципы работы с Оглавление maxLevel 2
General principles of working with ROBIN OCR
...
Для отправки документа на распознавание нужно выполнить минимум 2 запроса. Сначала отправляется запрос на создание пакета, в запрос передается единственное изображение пакета или первое. Запрос возвращает GUID пакета. Если изображений в пакете должно быть несколько, то в последующих запросах эти изображения добавляются к пакету (по одному). Завершающим запросом надо запустить пакет на обработку. Во второй и последующие запросы передается GUID созданного пакета.
...
Формат результата настраивается заранее, в сценарии.
...
Пользователь будет получать результат в виде коллекции json-объектов или xml-контекстов. С полученными результатами можно работать действиями студии.
...
Список классов пакета пользователь должен знать перед запуском действия.
...
Классы пакетов будут настроены в системе инженером, нужно выбрать класс, подходящий для обработки изображения. Имя класса пакета - это имя настроенного проекта. Имя класса пакета нужно указывать при создании пакета (обязательно). Имя пакета надо задавать в запросе.
...
Когда робот будет завершать работу с ошибкой, в тексте ошибки будет отображаться причина.
...
Если статус документа не "export", то робот не сможет получить результат и пропустит документ. Пользователь сам должен будет передвинуть документ в статус "экспорт" на сервере. Нужно провести валидацию файла вручную и отправить его на экспорт, путем внесения и принятия изменений в нем.
...
Статусы:
- import – импорт => ждать смены статуса
- recognize – распознавание =>ждать смены статуса
- validation – валидация=> вручную менять статус в системе Сойки
- export – экспорт => готово к выгрузке
- deleted - пакет был удален
- inaccessible - пакет недоступен
- quality control - если пользователь отправил по неправильному сценарию, вручную менять статус в системе Сойки.
To send a document for recognition, at least 2 requests must be made. First, a request to create a package is sent, the only image of the package or the first image of the package is passed to the request. The request returns the GUID of the package. If there are several images in the package, then in subsequent requests these images are added to the package (one by one). The final request is to start the package for processing. The GUID of the created package is passed to the second and subsequent requests.
The format of the result is customized in advance, in the script.
The user will receive the result as a collection of json objects or xml-contexts. Studio actions can work with the obtained results.
The list of package classes the user needs to know before running the action.
Package classes will be configured in the system by the engineer, you need to select a class suitable for image processing. Package class name is the name of the customized project. Package class name must be specified when creating a package (mandatory). Package name must be specified in the request.
When the robot finalizes an error, the error text will display the reason for the error.
If the status of the document is not "export", the robot will not be able to get the result and will skip the document. The user himself will have to move the document to the "export" status on the server. It is necessary to validate the file manually and send it for export by making and accepting changes in it.
Statuses:
- import - wait for status change
- recognize - wait for status change
- validation - manually change status in the Soika system
- export - ready for upload
- deleted - the package has been deleted
- inaccessible - the package is unavailable
- quality control - if the user has sent by wrong script, manually change the status in the Soika system.
- If the timeout expires before we get the recognized text an empty result will be obtained, the action will not terminate with an error.
Soika interface.
Authentication
When connecting for the first time, you must log in through your browser, chrome is preferred. admin, admin.
To access rest-service functions, authentication is required - BasicHttpAuth, login and password are passed in the http header, with the login in plaintext and the password encrypted MD5.
You can save the account in the browser. the user only has access to certain actions, this is set during registration.
Two tabs open 2 modules at once. Administrator module:
...
Интерфейс Сойки.
Аутентификация:
При первом подключении необходимо заходить через браузер, chrome предпочтительно. admin, admin.
Для получения доступа к функциям rest-сервиса требуется аутентификация – BasicHttpAuth, логин и пароль передаются в заголовке http, при этом логин в открытом виде, а пароль – зашифрованный MD5.
Можно сохранить учетную запись в браузере. у пользователя есть доступ только к определенным действиям, это настраивается при регистрации.
В двух вкладках открывают сразу же 2 модуля. Модуль администратора: http://localhost/administrator. Модуль валидацииValidation module: http://localhost/validation.
Аутентификация при подключении через браузер - обязательная процедура для каждого пользователя. Личный логин и пароль пользователей связан с личными настроенными сценариямиAuthentication when connecting via browser is a mandatory procedure for each user. User personal login and password are linked to personal customized scripts.
Просмотр и валидация документа.
Document review and validation
В режиме просмотра default с зажатой клавишей Shift можно выделить область, чтобы внести в нее правкиIn default view with the Shift key held down, you can select an area to make edits to it.
Когда правки применены, изменения отражаются в системеWhen the edits are applied, the changes are reflected in the system.
Когда пользователь сохранил изменения, пакет документ был принят пользователем, статус документа изменился с "валидации" на "экспорт".
When the user saved the changes, the document package was accepted by the user, the status of the document changed from "validation" to "export".
The file was validated manuallyФайл прошел валидацию вручную.
Файл получил статус "ЭкспортThe file has been given the status "Export".
Способы обработки результата.
Встроенные в студию действия по работе с JSON - файлами.
Ways of processing the result
Built-in studio actions to work with JSON - files.
An example of a composed chain of actions for processing the result. You can use Queues to parallelize image recognition processesПример составленной цепочки действий для обработки результата. Для распараллеливания процессов распознавания изображений можно использовать Очереди.
Представленные для текущего пользователя классы пакетовThe package classes presented for the current user.
Профиль распознавания по умолчанию The default recognition profile is -default. Интерфейс настройки профиля распознаванияRecognition profile configuration interface.
Пример исходного файлаExample of a source file.
Пример результирующего файла.
Example of the resulting file.
Make a sequence of actions to save the file to the computerСоставим последовательность действий, чтобы файл сохранился на компьютер.
Результат в виде json-файла. Нет необходимости сохранять полученный файл. Его можно сразу же обрабатывать действиями студии.
The result is in the form of a json file. There is no need to save the resulting file. It can be immediately processed by studio actions.
Studio actions if the result is received as an xml file. Then you can use the "Get items by XPath" action to get the values necessary for further workДействия студии, если результат получен в виде xml-файла. Далее можно воспользоваться действием "Получить элементы по XPath", чтобы получить необходимые для дальнейшей работы значения.
...
Send files for recognition
...
action
The action sends the file to an external Soica application for recognition.
The first action in the Send+Receive bundle. Send file for recognition and Receive recognition result is split into 2 actions for cases when the system will take a long time to process a large input file.
Settings
Property | Description | Type | Filling example | Mandatory field |
Parameters | ||||
URL | Link for authentication on the Soika service |
...
Действие отправляет файл на распознавание во внешнее приложение Soica.
Первое действие из связки Отправить+Получить. Отправить файл на распознавание и Получить результат распознавания разделено на 2 действия для случаев, когда система будет долго обрабатывать большой файл, поданный на вход.
Настройки
Свойство
Англ. наименование
Описание
Тип
URL
. | Robin.String. | http://localhost/administrator |
Yes |
Login | Login |
Robin.String. | admin |
Yes |
Password | Password |
Robin.Password. | admin |
Yes |
Class |
The package class that the script will be processed by. | Robin.String. |
Package class name | Yes | ||
File | Path to the file from which you want to extract text. Supported image formats: JPEG, PDF, TIFF, BMP, PNG, DOCX, GIF. | Robin.FilePath. |
Yes |
Results | ||||
---|---|---|---|---|
ID |
ID
Package identification number | Robin.String. |
Особые условия использования
Нужно заранее получить данные для аутентификации в сервисе Сойки.
Если за 120 секунд сервер не отправил ответ, то сервер недоступен.
Робот вернет ошибку, если:
в поле "Файл" подается неверный формат.
неверный логин или пароль подключения. 403
неверно указан путь, ссылка - 404
Действие "Получить результат распознавания" / "Get recognition result"
Special conditions of use
- You need to get the authentication details in advance from the Soika service.
- If the server has not sent a response in 120 seconds, the server is unavailable.
- The robot will return an error if:
- an incorrect format is entered in the "File" field.
- incorrect login or password for the connection, link -403
- wrong path, link - 404
...
Get recognition result action
Extract text from an image file using a pre-configured recognition profileИзвлечение текста из файла файла изображения с использованием пред-настроенного профиля распознавания.
Настройки
Settings
Property |
Description |
Type |
Тип
URL
Filling example | Mandatory field | |||
Parameters | ||||
URL | Link for authentication on the Soika service. | Robin.String | http://localhost/administrator |
Yes |
Login | Login |
Robin.String | admin |
Yes |
Password | Password |
Robin.Password | admin |
Yes |
ID |
ID
Package identification number | Robin.String | 65434 |
Yes |
Result type |
Формат, в котором будут представлены результаты.
The format in which the results will be presented. Dropdown list of elements |
: XML, JSON. |
Default value: XML. | Robin.String | JSON |
No |
Profile |
Recognition profile for results. Profiles are created in Soika itself and the user knows in advance which one to choose. The default value is set by the system when creating a package class and is called default. | Robin.String | default |
No |
Results | ||||
---|---|---|---|---|
Result |
A collection of json objects or xml-contexts containing recognized data. If document recognition is still in process, the result is not filled in. | Robin.Collection |
Status |
The status of document recognition. |
Особые условия использования
Необходимо запустить действие "Отправить на распознавание" перед действием "Получить результат распознавания".
Чтобы получить результат, нужно чтобы файл был распознан системой и переведен в статус "export". Если робот при проверке статуса документа робот получил любой статус, кроме "export", то робот вернет полученный статус документа и пустой файл результата распознавания.
Если за 120 секунд сервер не отправил ответ, то сервер недоступен.
Робот вернет ошибку, если:
неверно указан путь, ссылка - 404
неверный логин или пароль подключения. 403
выбранный сценарий обработки не подходит. 401
внутренняя ошибка сервера -500.
личные данные и ID документа не принадлежат одному пользователю.
Special conditions of use
- It is necessary to run the "Send for recognition" action before the "Get recognition result" action.
- To get the result, the file must be recognized by the system and set to the "export" status. If the robot has received any status other than "export" when checking the document status, the robot will return the received document status and an empty recognition result file.
- If the server has not sent a response in 120 seconds, the server is unavailable.
- The robot will return an error if:
- wrong path, link - 404
- Incorrect login or password for connection, link -403
- the selected processing script is not suitable, link -401
- internal server error, link -500.
- personal data and document ID do not belong to the same user.
The robot will NOT return an error if:
- no text found on the image.
- text is not recognized on the image.
- statuses
Робот НЕ вернет ошибку, если:
- на изображении не найден текст.
- на изображении не распознан текст. статусы
- "quality control", "validation", который нужно менять вручную
- which must be changed manually => вызвать rest api для перевода в другой модуль или открыть пакет на валидации, исправить ошибки и отправить его на экспорт.
Во всех этих случаях робот вернет пустой результат распознавания файла.
Если неверно указан язык текста, настроенный в алгоритме, то результатом, возможно, будет не пустая строка, совпадающие символы из алфавита.
Действие "Распознать" / "Recognize files"
Извлечение текста из файла.
Настройки
- call rest api for translation to another module or open the package on validation, correct errors and send it for export.
In all these cases, the robot will return an empty file recognition result.
If the text language configured in the algorithm is specified incorrectly, the result will probably be a non-empty string, matching characters from the alphabet.
Recognize files action
Extract text from a file.
Settings
Property | Description | Type | Filling example | Mandatory field |
Parameters | ||||
URL | Link for authentication on the Soika service |
Свойство
Англ. наименование
Описание
Тип
URL
. | Robin.String | http://localhost/administrator |
Yes |
Login | Login |
Robin.String | admin |
Yes |
Password | Password |
Robin.Password | admin |
Yes |
Class | The package class that the script will be processed by. | Robin.String. | Имя класса пакета |
Yes |
Файл
File | Path to the file from which you want to extract text. Supported image formats |
: JPEG, PDF, TIFF, BMP, PNG, DOCX, GIF. | Robin.FilePath. | C:\Users\Документ\1.jpg |
Yes |
Тип результата
Result type |
Формат, в котором будут представлены результаты.
The format in which Results will be presented. Drop-down list of elements |
: XML, JSON. |
Default value: XML. | Robin.String | JSON |
No |
Profile |
Профиль распознавания для получения результатов.
Профили создаются в самой Сойке и пользователь заранее знает, какой необходимо выбрать. Значение по умолчанию задается системой при создании класса пакетов и называетсяRecognition profile for results. Profiles are created in Soika itself and the user knows in advance which one to choose. The default value is set by the system when creating a package class and is called default. | Robin.String | default |
No | |||
Time out | Время в миллисекундах, в течение которого будет происходить работа действия. | Robin.Numeric | 1000000 |
No |
Results |
---|
Результат
Result |
A collection of json objects or xml-contexts containing recognized data. If document recognition is still in process, the result is not filled in. | Robin.Collection |
Статус
Status |
The status of document recognition. |
Особые условия использования
Робот вернет ошибку, если:
неверно указан путь, ссылка - 404
неверный логин или пароль подключения. 403
выбранный сценарий обработки не подходит. 401
внутренняя ошибка сервера -500.
личные данные и ID документа не принадлежат одному пользователю.
Примеры использования
Отправить + получить
Задача: распознать текст на документе и сохранить возможность выполнять еще какие либо действия, пока происходит обработка поданного на вход документа.
Решение: использовать действия «Отправить на распознавание», "Получить результат распознавания".
Реализация:
...
Special conditions of use
- The robot will return an error if:
- wrong path, link - 404
- Incorrect login or password for connection, link -403
- the selected processing script is not suitable, link -401
- internal server error, link -500.
- personal data and document ID do not belong to the same user
- If no timeout is specified, 1 status request is called. If a timeout is specified and no result is received at the end of the timeout, the last known status and an empty result will be returned.
Examples of use
Send + receive
Task
Recognize the text on the document and retain the ability to perform any other actions while the input document is being processed.
Solution
Use the actions "Send for recognition", "Get the result of the recognition".
Implementation
- Sequentially set the "Send for recognition" and "Get the result of the recognition" actions to the workspace.
- Fill in the action parameters with the correct data:
- "Send for recognition" parameters;
- "Get the result of the recognition" parameters.
- "Send for recognition" parameters;
- Launch the robot using the "Start" button in the top panel.
Result
The robot will return the processed files. The result is represented as a collection with json objects or xml contexts. Export status.
Recognize
Task
Recognize text in a document.
Solution
Use the action "Recognize".
Implementation
Set the "Recognize" action to the workspace.
Fill the action parameters with correct data.
- Launch the robot using the "Start" button in the top panel.
Result
The robot returned the processed files. The result is represented as a collection with json objects or xml contexts. Export status
...
Результат: Робот вернет обработанные файлы. Результат представлен в виде коллекции с json-объектами или xml-контекстами. Статус "export".
Распознать
Задача: распознать текст на документе.
Решение: использовать действие "Распознать".
Реализация:
- Установить действие "Распознать"на рабочую область.
Заполнить параметры действия корректными данными.
- Запустить робота по кнопке "Старт" в верхней панели.
Результат: Робот вернул обработанные файлы. Результат представлен в виде коллекции с json-объектами или xml-контекстами. Статус "export".