Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Получить текст из PDF

...

Версия 11 (

...

Python)

Группа действий: Распознавание текста

...

Описание

Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Иконка действия


Параметры

Входные параметры:  

Источник                               Путь к PDF файлу для распознавания

Основной язык                     Языки, который распознаватель ожидает в тексте

Страница документа            Номер станицы файла, с которой будет считываться текст

Выходные параметры:

Результат                           Переменная, в которую будет сохранен распознанный текст

Настройки

и их настройки

СвойствоОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
ИсточникПуть к файлу

Путь к PDF файлу для распознавания


Если тип файла неприменим, будет выведено предупреждение

Путь к файлуRobin.FilePath

C:\Users\Документы\1.pdfДа
Язык

Ожидаемый язык текста в PDF-файле

Основной язык

Языки, который распознаватель ожидает в тексте


Выпадающий список из элементов:

Справочник содержит следующие значения:

  • Русский
- Russian;
  • Английский - English;
  • Русский и Английский;
  • По умолчанию значение равно "Русский"

    СтрокаРусскийДа
    • Английский
    • Вьетнамский
    • Арабский
    • Испанский
    • Португальский
    • Индонезийский
    • Персидский
    • Турецкий
    • Казахский
    • Белорусский

    Значение по умолчанию – Русский

    Robin.StringРусскийНет
    Дополнительный язык

    Дополнительный язык, необходимый для распознавания документа

    Выпадающий список из элементов:

    • Нет
    • Русский
    • Английский
    • Вьетнамский
    • Арабский
    • Испанский
    • Португальский
    • Индонезийский
    • Персидский
    • Турецкий
    • Казахский
    • Белорусский

    Значение по умолчанию – Нет

    Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык

    Robin.String

    Номер страницыСтраница документа

    Номер станицы файла, с которой будет считываться текст



    Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат

    ЧислоRobin.Collection2Да
    Обученная модель

    Файл с обученной моделью Tesseract в формате .taineddata.

    Позволяет загрузить собственную модель, натренированную на необходимые шрифты.

    Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык"

     
    Нет
    Результаты
    Результат

    Переменная, в которую будет сохранен распознанный текстПолученный текст со страницы в PDF-файле


    Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение

    СтрокаRobin.Collection



    Особые условия использования

    Отсутствуют.

    Пример использования 

    Задача

    Существует : существует документ в формате pdf , необходимо получить текст с 2 страницы документа.

    Решение

    Воспользоваться : воспользоваться действием "Получить текст из PDF". 

    Реализация

    :

    1. Перенести действие "Получить текст из PDF" на рабочую область. 

    2. Настроить параметры действия "Получить текст из PDF".

    3. Нажать на кнопку "Старт" в верхней панели. 

    Результат

    :

    Программный робот отработал успешно. Текст со 2 страницы документа получен.