Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 5 Следующий »

Get text from PDF Version 11 (Python)

Action group^ Text recognition


Description

This action is designed to recognize text from the specified page of a PDF document and save the recognized text to a variable.


Parameters

Input parameters:  

PDF file path - Path to PDF file to be recognized

Language of the text - Languages that the recognizer expects in the text

Page number - The number of the page of the file from which the text will be read

Output parameters:

Result - Variable into which the recognized text will be saved

Settings

PropertyDescriptionTypeFilling exampleMandatory field
Parameters
PDF file pathThe path to the PDF file for recognitionRobin.FilePath
Yes
Language of the text

Expected languages of the text in the PDF file

Выпадающий список из элементов:

  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский

Значение по умолчанию – Русский

Robin.Collection
No
Page number

The page number of the file from which the text will be read

Robin.Numeric
No
Additional language

An additional language required for document recognition

Выпадающий список из элементов:

  • Нет
  • Русский
  • Английский
  • Вьетнамский
  • Арабский
  • Испанский
  • Португальский
  • Индонезийский
  • Персидский
  • Турецкий
  • Казахский
  • Белорусский

Значение по умолчанию – Нет

Если в параметрах "Язык" и "Дополнительный язык" выбран один и тот же вариант, то ошибки не будет. Дубль будет считаться как 1 язык

Robin.Collection
No
Обученная модель

Файл с обученной моделью Tesseract в формате .taineddata.

Позволяет загрузить собственную модель, натренированную на необходимые шрифты.

Если параметр заполнен, то будет считаться приоритетнее, чем параметры "Язык" и "Дополнительный язык"




Results
ResultReceived text from a specific page from PDF. If the document does not contain the specified page, a blank value will be stored.Robin.Collection

Special conditions of use

None.

Example of use

Task

There is a document in pdf format, need to get the text from 2 pages of the document.

Solution

Use the "Get text from PDF" action. 

Реализация

  1. Move the "Get text from PDF" action to the workspace. 

  2. Set "Get text from PDF" action parameters
  3. Click on the "Start" button in the top panel. 

Result

The program robot completed successfully. The text from page 2 of the document has been retrieved. 

  • Нет меток