Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Получить текст из PDF

...

Версия 11 (Python)

Группа действий: Распознавание текста

...

Описание

Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Image Removed

Иконка действия

Image Added


Параметры и их настройки

Свойство

Настройки

СвойствоАнгл. наименование
ОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
ИсточникSource
Путь к файлу

Путь к PDF файлу для распознавания

.


Если тип файла неприменим, будет выведено предупреждение

Robin.FilePath

Путь к файлу

C:\Users\Документы\1.pdfДа
Основной языкPrimary language

Языки, который распознаватель ожидает в тексте.

Выпадающий список:

Справочник содержит следующие значения:

  • Русский - Russian;
  • Английский - English;
  • Русский и Английский;

По умолчанию значение равно "Русский".

СтрокаРусскийДаСтраница документаDocument page
Язык

Ожидаемый язык текста в PDF-файле


Выпадающий список из элементов:

  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский

Значение по умолчанию – Русский

Robin.StringРусскийНет
Дополнительный язык

Дополнительный язык, необходимый для распознавания документа

Выпадающий список из элементов:

  • Нет
  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский

Значение по умолчанию – Нет

Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык

Robin.String

Номер страницы

Номер станицы файла, с которой будет считываться текст

.



Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат

Robin.Collection
Число
2Да
РезультатыРезультатResultПеременная, в которую будет сохранен распознанный текст.
Обученная модель

Файл с обученной моделью Tesseract в формате .taineddata.

Позволяет загрузить собственную модель, натренированную на необходимые шрифты.

Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык"

 
Нет
Результаты
Результат

Полученный текст со страницы в PDF-файле


Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение

Robin.Collection

Строка



Особые условия использования

Отсутствуют.

Пример использования 

Задача

Существует документ в формате pdf , необходимо получить текст с 2 страницы документа.

Решение

Воспользоваться действием "Получить текст из PDF". 

Реализация

  1. Перенести действие "Получить текст из PDF" на рабочую область. 
    Image Added
  2. Настроить параметры действия "Получить текст из PDF".
    Image Added
  3. Нажать на кнопку "Старт" в верхней панели. 

Результат

Программный робот отработал успешно. Текст со 2 страницы документа получен.

 Image Added