История страницы

Получить текст из PDF

...

Версия 11 (

...

Python)

Группа действий: Распознавание текста

...

Описание

Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Image Removed

Иконка действия

Image Added

Параметры и их настройки

Настройки

Свойство

Англ. наименование

Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры

Источник

Путь к файлу

Source

Путь к PDF файлу для распознавания

.

Если тип файла неприменим, будет выведено предупреждение

.Путь к файлуСтрокаРусскийДаСтраница документа

Document page

	Robin.FilePath	C:\Users\Документы\1.pdf	Да
Язык

Основной языкPrimary language

Языки, который распознаватель ожидает в тексте.

Выпадающий список:

Справочник содержит следующие значения:

Русский - Russian;
Английский - English;
Русский и Английский;

По умолчанию значение равно "Русский".

Ожидаемый язык текста в PDF-файле

Выпадающий список из элементов:

Русский
Английский
Вьетнамский
Арабский
Испанский
Португальский
Индонезийский
Персидский
Турецкий
Казахский
Белорусский

Значение по умолчанию – Русский

Robin.String

Русский

Нет

Дополнительный язык

Дополнительный язык, необходимый для распознавания документа

Выпадающий список из элементов:

Нет
Русский
Английский
Вьетнамский
Арабский
Испанский
Португальский
Индонезийский
Персидский
Турецкий
Казахский
Белорусский

Значение по умолчанию – Нет

Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык

Robin.String

Номер страницы

Номер станицы файла, с которой будет считываться текст

.

Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат

Robin.Collection

Число

2

Да

РезультатыРезультатResultПеременная, в которую будет сохранен распознанный текст.

Обученная модель

Файл с обученной моделью Tesseract в формате .taineddata.

Позволяет загрузить собственную модель, натренированную на необходимые шрифты.

Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык"

Нет

Результаты

Результат

Полученный текст со страницы в PDF-файле

Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение

Robin.

Строка

Collection

Особые условия использования

Отсутствуют.

Пример использования

Задача

Существует : существует документ в формате pdf , необходимо получить текст с 2 страницы документа.

Решение

Воспользоваться : воспользоваться действием "Получить текст из PDF".

Реализация

:

Перенести действие "Получить текст из PDF" на рабочую область.

Настроить параметры действия "Получить текст из PDF".

Нажать на кнопку "Старт" в верхней панели.

Результат

:

Дерево страниц

Сравнение версий

Старая версия 6

Новая версия Текущий

Ключ

Получить текст из PDF

Версия 11 (

Python)

Иконка действия

Параметры и их настройки

Особые условия использования

Пример использования

Задача

Решение

Реализация

Перенести действие "Получить текст из PDF" на рабочую область.

Настроить параметры действия "Получить текст из PDF".

Нажать на кнопку "Старт" в верхней панели.

Результат

Программный робот отработал успешно. Текст со 2 страницы документа получен.

Дерево страниц

История страницы

Сравнение версий

Старая версия 6

Новая версия Текущий

Ключ

Получить текст из PDF

Версия 11 (

Python)

Иконка действия

Параметры и их настройки

Особые условия использования

Пример использования

Задача

Решение

Реализация

Перенести действие "Получить текст из PDF" на рабочую область. Настроить параметры действия "Получить текст из PDF".Нажать на кнопку "Старт" в верхней панели.

Результат

Программный робот отработал успешно. Текст со 2 страницы документа получен.

Перенести действие "Получить текст из PDF" на рабочую область.

Настроить параметры действия "Получить текст из PDF".

Нажать на кнопку "Старт" в верхней панели.