Группа «Распознавание текста»

Yandex OCR

Задача: извлечь текст с изображения.

Решение: воспользоваться действием «Извлечение теста с изображения».

Реализация:

  • Перенести действие «Извлечение теста с изображения» на рабочую область.

  • Настроить параметры действия. В параметре Yandex API-ключ указать ключ, полученный на сайте https://cloud.yandex.ru/ (порядок действий по получению ключа указан в разделе «Особые условия использования»).

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Текст извлечен с изображения.

Особые условия использования

Описание того, что такое ключ авторизации, находится по адресу: https://cloud.yandex.ru/docs/iam/concepts/authorization/api-key

Для получения этого ключа нужно выполнить следующие действия:

  • Перейти на сайт Yandex.Cloud по ссылке https://cloud.yandex.ru/

  • Кликнуть по кнопке «Подключиться».

  • Кликнуть по кнопке «Войти в аккаунт на Яндексе».

  • Выполнить вход, заполнив необходимые поля и нажав на кнопку «Войти». Или зарегистрироваться и нажать на кнопку «Создать ID».

  • Авторизоваться, заполнив все поля.

  • Кликнуть по кнопке «Создать».

  • Кликнуть по кнопке «Активировать пробный период».

  • Заполнить все поля и кликнуть по кнопке «Активировать».

  • Нажать на строку с именем каталога, в котором нужно создать сервисный аккаунт.

  • Кликнуть по имени.

  • Выбрать вкладку «Сервисные аккаунты».

  • Нажать кнопку «Создать сервисный аккаунт».

  • Ввести имя сервисного аккаунта, нажать на кнопку «Добавить роль» и выбрать роль, например admin. Кликнуть по кнопке «Создать».

  • Кликнуть по созданному аккаунту.

  • Кликнуть по кнопке «Создать новый ключ».

  • Выбрать из списка «Создать API-ключ».

  • Кликнуть по кнопке «Создать».

  • Копировать секретный ключ.

  • Вставить скопированный ключ в параметр «Yandex API-ключ»

Flexi Capture

Распознать / Recognize

Задача: распознать текст на изображении с помощью ABBYY FlexiCapture веб-сервиса

Решение: воспользоваться действием «Распознать».

Реализация:

  • Перенести на рабочую область действие «Распознать».

  • Заполнить параметры действия:

Параметр «Графический файл» - указать путь до графического файла, из которого необходимо извлечь текст;

Параметр «Url к веб-серверу FlexiCapture» - указать ссылку для авторизации на веб-сервере FlexiCapture;

Параметр «Логин» - логин для авторизации на веб - сервере FlexiCapture;

Параметр «Пароль» - пароль для авторизации на веб - сервере FlexiCapture; Параметр «ID роли подключения» - указать идентификатор роли оператора FlexiCapture;

Параметр «ID типа станции» - указать идентификатор типа станции FlexiCapture;

Параметр «Имя или Guid проекта» - указать имя или идентификатор проекта FlexiCapture;

Параметр «ID типа пакета» - указать идентификатор типа пакета FlexiCapture;

Параметр «ID пользователя или группы» - указать идентификатор владельца пакета FlexiCapture;

Параметр «ID стадии экспорта» - указать идентификатор стадии экспорта FlexiCapture;

Параметр «Формат вложения» - выбрать из выпадающего списка расширение файла, который будет возвращен с сервера. Доступны следующие типы: xlsx; xls; xml; json; csv; txt; dbf.

Параметр «Папка для вложения» - казать путь до папки, куда будет сохранено вложение полученное с сервера.

Пример заполнения полей:

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Результат действия – словарь с результатом распознавания в формате ключ-значение и путь до файла с результатом распознавания.

Особые условия использования

Для работы действия необходима предварительная регистрация https://support.abbyy.com/hc/en-us/categories/360003112019-FlexiCapture-Engine

Действие можно применять при извлечении данных из полей (например, данные паспорта). В результате действия мы получим словарь в формате «ключ-значение», где ключ - название поля, значение - данные из поля.

Графический документ должен иметь один из следующих форматов файла: jpg, pdf, png, bmp, djvu, gif, jpc, pcx, pptx, tiff, xps

Особенности по заполнению параметров:

Поля «Логин» и «Пароль» - логин и пароль от консоли администрирования и мониторинга.

Поле «Имя или Guid проекта» - можно посмотреть в консоли администрирования и мониторинга на вкладке «Проекты».

Поле «ID роли подключения» - можно посмотреть в справке разработчика в окне «RoleType».

Поле «ID типа станции» - можно посмотреть в справке разработчика в окне «WorkstationType».

Поле «ID стадии экспорта» - можно посмотреть в окне «Тип этапа обработки».

Поле «ID типа пакета», «ID пользователя или группы» - просмотр через БД Abbyy. Если поиск производится для поля «ID типа пакета», то данные в таблице BatchType. Если поиск производится для поля «ID пользователя или группы», то данные в таблице Principal.

Dbrain OCR

Извлечение текста из файла / Extract text from file

Задача: распознать текст из файла.

Решение: воспользоваться действием «Извлечение текста из файла».

Реализация:

  • Перенести действие «Извлечение текста из файла» на рабочую область

  • Настроить параметры действия «Извлечение текста из файла».

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Текст извлечен.

Azure OCR

Извлечение текста из изображения / Extracting text from an image

Задача: извлечь текст из изображения.

Решение: воспользоваться действием «Извлечение текста из изображения».

Реализация:

  • Перенести действие «Извлечение текста из изображения» на рабочую область.

  • Настроить параметры действия «Извлечение текста из изображения»:

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Текст извлечен из изображения.

Особые условия использования

Прежде чем использовать API, необходимо создать экземпляр службы Computer Vision. В портале Azure Portal,

https://www.pluralsight.com/guides/computer-vision-with-microsoft-azure

Извлечение текста из файла / Extracting text from a file

Задача: распознать текст из файла.

Решение: воспользоваться действием «Извлечение текста из файла».

Реализация:

  • Перенести действие на рабочую область

  • Настроить параметры для действия «Извлечение текста из файла».

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Текст распознан.

Особые условия использования

Прежде чем использовать API, необходимо создать экземпляр службы Computer Vision. В портале Azure Portal,

https://www.pluralsight.com/guides/computer-vision-with-microsoft-azure

ABBYY OCR

Извлечение текста из изображения / Extracting text from an image

Задача: извлечь текст из изображения.

Решение: воспользоваться действием «Извлечение текста из изображения».

Реализация:

  • Перенести действие «Извлечение текста из изображения» на рабочую область.

  • Настроить параметры действия «Извлечение текста из изображения»:

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Текст извлечен из изображения.

Особые условия использования

Сервис ABBYY Cloud OCR SDK требует аутентификации перед предоставлением доступа к своему API. Для того чтобы ваша клиентская программа прошла аутентификацию в сервисе, вам необходимо зарегистрировать Application ID и Application Password. Идентификатор приложения и пароль приложения вы можете найти в электронном письме, отправленном вам при создании приложения.

Регистрация по ссылке: https://cloud.ocrsdk.com/Account/Welcome/Register

Извлечение текста из файла / Extracting text from a file

Задача: распознать текст из файла.

Решение: воспользоваться действием «Извлечение текста из файла».

Реализация:

  • Перенести действие на рабочую область

  • Настроить параметры для действия «Извлечение текста из файла».

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Текст извлечен.

Особые условия использования

Сервис ABBYY Cloud OCR SDK требует аутентификации перед предоставлением доступа к своему API. Для того чтобы ваша клиентская программа прошла аутентификацию в сервисе, вам необходимо зарегистрировать Application ID и Application Password. Идентификатор приложения и пароль приложения вы можете найти в электронном письме, отправленном вам при создании приложения.

Регистрация по ссылке: https://cloud.ocrsdk.com/Account/Welcome/Register

Microsoft OCR

Извлечь текст из изображения / Extract text from image

Пример 1.

Задача: распознать текст на русском языке с изображения.

Решение: воспользоваться действием «Извлечь текст из изображения» Microsoft.

Реализация:

  • Установить действие «Извлечь текст из изображения» на рабочую область.

  • Настроить параметры действия: «Изображение» - файл изображения с текстом на русском языке, «Язык» - оставить незаполненным, по умолчанию Русский и английский языки.

  • Запустить робота по кнопке «Старт» в верхней панели.

Результат: Действие отрабатывает успешно. Робот вернул полученный текст.

Пример 2.

Задача: распознать текст на английском языке с изображения.

Решение: воспользоваться действием «Извлечь текст из изображения» Microsoft.

Реализация:

  • Установить действие «Извлечь текст из изображения» на рабочую область.

  • Настроить параметры действия: «Изображение» - файл изображения с текстом на английском языке, «Язык» - Английский язык.

  • Запустить робота по кнопке «Старт» в верхней панели.

Результат: Действие отрабатывает успешно. Робот вернул полученный текст.

Особые условия использования

Если на вход подается текст на русском языке, в параметрах в поле «Язык» выбран «Английский язык», робот будет пытаться разобрать текст и вернет набор знаков.

Робот вернет ошибку, если:

  • в поле «Изображение» подается неверный формат.
  • необходимый языковой пакет не установлен.
  • версия MS, которая не поддерживает OCR.

Для корректной работы действия ОС Windows должна быть на русском языке. Если ОС на каком-либо другом языке, то необходимо установить языковой пакет https://support.microsoft.com/en-us/windows/language-packs-for-windows-a5094319-a92d-18de-5b53-1cfc697cfca8#WindowsVersion=Windows_10

https://www.windowscentral.com/how-properly-change-system-default-language-windows-10

Действие работает на версиях Windows 8.1 и выше.

Обработка изображений

Изменить яркость и контрастность / Change brightness and contrast

Задача: существует изображение чека на рабочем столе, необходимо изменить яркость и контрастность изображения на значения: яркость - 50, контрастность 20.

Решение: воспользоваться действием «Изменить яркость и контрастность».

Реализация:

  • Перенести действие «»Изменить яркость и контрастность» на рабочую область и настроить его параметры:

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Яркость и контрастность изображения изменена.

Изображение после изменения яркости и контрастности.

Дополнительно

  • Если поля «Папка», «Имя файла» не заполнены, то изменения применяются к поданному на вход изображению.
  • Если заполнено поле «Папка» и не заполнено «Имя файла», то изменения сохраняются в указанную папку, имя файла остается без изменений.
  • Если заполнено поле «Имя файла» и не заполнено «Папка», то изменения сохраняются в ту же папку, откуда был взят файл, но с новым именем файла.

Робот вернет ошибку, если:

  • на вход подается не изображение;
  • выбран диапазон не от -100% до 100%;
  • указанного названия папки не существует;
  • указанное название файла уже существует.

Как именно влияют на изображение изменение яркости и контрастности. Если переводить буквально: -100 превратит показатель в 0, а +100% только увеличит в 2 раза.

https://mass-images.pro/ru/batch/tpl/brightness - изменение яркости.

https://mass-images.pro/ru/batch/tpl/contrast - изменение контрастности.

+100 яркости тут превращает изображение в белое, а контрастность -100 - в серо.

Tesseract

Прочитать текст / Read text

Задача: прочитать текст на изображении

Решение: воспользоваться действием «Прочитать текст»

Реализация:

  • Перенести действие «Прочитать текст» на рабочую область и настроить его параметры:

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Текст считан с изображения.

Особые условия использования

По умолчанию в поле «Параметры» используется режим – psm 3. Все параметры перечисляются через пробел в формате – параметр значение_параметра. Список всех параметров: https://muthu.co/all-tesseract-ocr-options/.

Найти страницу в PDF / Find page in PDF

Задача: существует документ в формате pdf , необходимо найти страницы, где имеется текст «Назначение и условия применения».

Решение: воспользоваться действием «Найти страницу в PDF».

Реализация:

  • Перенести действие «Найти страницу в PDF» на рабочую область.

  • Настроить параметры действия «Найти страницу в PDF»

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Найдены страницы с данным текстом в документе.

Получить текст из PDF / Read text from PDF

Задача: существует документ в формате pdf , необходимо получить текст с 2 страницы документа.

Решение: воспользоваться действием «Получить текст из PDF».

Реализация:

  • Перенести действие «Получить текст из PDF» на рабочую область.

  • Настроить параметры действия «Получить текст из PDF»

  • Нажать на кнопку «Старт» в верхней панели.

Результат:

Программный робот отработал успешно. Текст со 2 страницы документа получен.