Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Получить текст из PDF Версия

...

11 (Python)

Группа действий: Распознавание текста

...

Описание

Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Иконка действия


Параметры

Входные параметры:  

Источник                               Путь к PDF файлу для распознавания

Основной язык                     Языки, который распознаватель ожидает в тексте

Страница документа            Номер станицы файла, с которой будет считываться текст

Выходные параметры:

Результат                           Переменная, в которую будет сохранен распознанный текст

Настройки

и их настройки

СвойствоОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
ИсточникПуть к файлу

Путь к PDF файлу для распознавания


Если тип файла неприменим, будет выведено предупреждение

Путь к файлуRobin.FilePath

C:\Users\Документы\1.pdfДа
ЯзыкОсновной язык

Языки, который распознаватель ожидает в текстеОжидаемый язык текста в PDF-файле


Выпадающий список из элементов:

Справочник содержит следующие значения:

  • Русский 
  • Английский 
    • Русский
    • Английский
    • Вьетнамский
    • Арабский
    Вьетнамский
    • Испанский
    • Португальский
    • Индонезийский
    • Персидский
    • Турецкий
    • Казахский
    • Белорусский

    Значение по умолчанию – Русский

    Robin.StringРусскийНет
    Дополнительный язык
  • Русский и английский
  • Вьетнамский и английский
  • Арабский и английский
  • Испанский и английский
  • Португальский и английский
  • По умолчанию значение равно "Русский"

    СтрокаРусскийДа

    Дополнительный язык, необходимый для распознавания документа

    Выпадающий список из элементов:

    • Нет
    • Русский
    • Английский
    • Вьетнамский
    • Арабский
    • Испанский
    • Португальский
    • Индонезийский
    • Персидский
    • Турецкий
    • Казахский
    • Белорусский

    Значение по умолчанию – Нет

    Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык

    Robin.String

    Номер страницыСтраница документа

    Номер станицы файла, с которой будет считываться текст



    Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат

    ЧислоRobin.Collection2Да
    Обученная модель

    Файл с обученной моделью Tesseract в формате .taineddata.

    Позволяет загрузить собственную модель, натренированную на необходимые шрифты.

    Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык"

     
    Нет
    Результаты
    Результат

    Переменная, в которую будет сохранен распознанный текстПолученный текст со страницы в PDF-файле


    Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение

    СтрокаRobin.Collection



    Особые условия использования

    Отсутствуют.

    Пример использования 

    Задача

    Существует документ в формате pdf , необходимо получить текст с 2 страницы документа.

    Решение

    Воспользоваться действием "Получить текст из PDF". 

    Реализация

    1. Перенести действие "Получить текст из PDF" на рабочую область. 

    2. Настроить параметры действия "Получить текст из PDF".

    3. Нажать на кнопку "Старт" в верхней панели. 

    Результат

    :

    Программный робот отработал успешно. Текст со 2 страницы документа получен.