История страницы
Получить текст из PDF
...
Версия 11 (
...
Python)
Группа действий: Распознавание текста
...
Описание
Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.
Иконка действия
Параметры
Входные параметры:
Источник Путь к PDF файлу для распознавания
Основной язык Языки, который распознаватель ожидает в тексте
Страница документа Номер станицы файла, с которой будет считываться текст
Выходные параметры:
Результат Переменная, в которую будет сохранен распознанный текст
Настройки
и их настройки
Свойство | Описание | Тип | Пример заполнения | Обязательность заполнения поля | ||||||
---|---|---|---|---|---|---|---|---|---|---|
Параметры | ||||||||||
ИсточникПуть к файлу | Путь к PDF файлу для распознавания Если тип файла неприменим, будет выведено предупреждение | Путь к файлуRobin.FilePath | C:\Users\Документы\1.pdf | Да | ||||||
Язык | Ожидаемый язык текста в PDF-файле | Основной язык | Языки, который распознаватель ожидает в тексте Выпадающий список из элементов: Справочник содержит следующие значения:
По умолчанию значение равно "Русский" | Строка | Русский | Да |
Значение по умолчанию – Русский | Robin.String | Русский | Нет |
Дополнительный язык | Дополнительный язык, необходимый для распознавания документа Выпадающий список из элементов:
Значение по умолчанию – Нет Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык | Robin.String | ||||||||
Номер страницыСтраница документа | Номер станицы файла, с которой будет считываться текст Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат | ЧислоRobin.Collection | 2 | Да | ||||||
Обученная модель | Файл с обученной моделью Tesseract в формате .taineddata. Позволяет загрузить собственную модель, натренированную на необходимые шрифты. Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык" | Нет | ||||||||
Результаты | ||||||||||
Результат | Переменная, в которую будет сохранен распознанный текстПолученный текст со страницы в PDF-файле Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение | СтрокаRobin.Collection |
Особые условия использования
Отсутствуют.
Пример использования
Задача
Существует : существует документ в формате pdf , необходимо получить текст с 2 страницы документа.
Решение
Воспользоваться : воспользоваться действием "Получить текст из PDF".
Реализация
:- Перенести действие "Получить текст из PDF" на рабочую область.
- Настроить параметры действия "Получить текст из PDF".
- Нажать на кнопку "Старт" в верхней панели.
Результат
:Программный робот отработал успешно. Текст со 2 страницы документа получен.