Получить текст из PDF Версия 11 (Python)

Группа действий: Распознавание текста


Описание

Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Иконка действия


Параметры и их настройки

СвойствоОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
Путь к файлу

Путь к PDF файлу для распознавания


Если тип файла неприменим, будет выведено предупреждение

Robin.FilePath

C:\Users\Документы\1.pdfДа
Язык

Ожидаемый язык текста в PDF-файле


Выпадающий список из элементов:

  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский

Значение по умолчанию – Русский

Robin.StringРусскийНет
Дополнительный язык

Дополнительный язык, необходимый для распознавания документа

Выпадающий список из элементов:

  • Нет
  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский

Значение по умолчанию – Нет

Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык

Robin.String

Номер страницы

Номер станицы файла, с которой будет считываться текст



Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат

Robin.Collection2Да
Обученная модель

Файл с обученной моделью Tesseract в формате .taineddata.

Позволяет загрузить собственную модель, натренированную на необходимые шрифты.

Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык"

 
Нет
Результаты
Результат

Полученный текст со страницы в PDF-файле


Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение

Robin.Collection



Особые условия использования

Отсутствуют.

Пример использования 

Задача

Существует документ в формате pdf , необходимо получить текст с 2 страницы документа.

Решение

Воспользоваться действием "Получить текст из PDF". 

Реализация

  1. Перенести действие "Получить текст из PDF" на рабочую область. 

  2. Настроить параметры действия "Получить текст из PDF".

  3. Нажать на кнопку "Старт" в верхней панели. 

Результат

Программный робот отработал успешно. Текст со 2 страницы документа получен.

 

  • Нет меток