История страницы

Получить текст из PDF

...

Версия 11 (Python)

Группа действий: Распознавание текста

...

Описание

Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Image Removed

Иконка действия

Image Added

Параметры и их настройки

Свойство

Настройки

СвойствоАнгл. наименование

	Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры

ИсточникSource

Путь к файлу

Путь к PDF файлу для распознавания

.

Если тип файла неприменим, будет выведено предупреждение

Robin.FilePath

Путь к файлу

C:\Users\Документы\1.pdf

Да

Основной языкPrimary language

Языки, который распознаватель ожидает в тексте.

Выпадающий список:

Справочник содержит следующие значения:

Русский - Russian;
Английский - English;
Русский и Английский;

По умолчанию значение равно "Русский".

СтрокаРусскийДаСтраница документаDocument page

Язык

Ожидаемый язык текста в PDF-файле

Выпадающий список из элементов:

Русский
Английский
Вьетнамский
Арабский
Испанский
Португальский
Индонезийский
Персидский
Турецкий
Казахский
Белорусский

Значение по умолчанию – Русский

Robin.String

Русский

Нет

Дополнительный язык

Дополнительный язык, необходимый для распознавания документа

Выпадающий список из элементов:

Нет
Русский
Английский
Вьетнамский
Арабский
Испанский
Португальский
Индонезийский
Персидский
Турецкий
Казахский
Белорусский

Значение по умолчанию – Нет

Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык

Robin.String

Номер страницы

Номер станицы файла, с которой будет считываться текст

.

Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат

Robin.Collection

Число

2

Да

РезультатыРезультатResultПеременная, в которую будет сохранен распознанный текст.

Обученная модель

Файл с обученной моделью Tesseract в формате .taineddata.

Позволяет загрузить собственную модель, натренированную на необходимые шрифты.

Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык"

Нет

Результаты

Результат

Полученный текст со страницы в PDF-файле

Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение

Robin.Collection

Строка

Особые условия использования

Отсутствуют.

Пример использования

Задача

Существует документ в формате pdf , необходимо получить текст с 2 страницы документа.

Решение

Воспользоваться действием "Получить текст из PDF".

Реализация

Перенести действие "Получить текст из PDF" на рабочую область.
Image Added
Настроить параметры действия "Получить текст из PDF".
Image Added
Нажать на кнопку "Старт" в верхней панели.

Результат

Программный робот отработал успешно. Текст со 2 страницы документа получен.

Image Added

Дерево страниц

Сравнение версий

Старая версия 1

Новая версия Текущий

Ключ

Получить текст из PDF

Версия 11 (Python)

Иконка действия

Параметры и их настройки

Настройки

Особые условия использования

Пример использования

Задача

Решение

Реализация

Результат