Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 11 Текущий »

Прочитать текст / Read text


Данное действие предназначено для распознавания печатного текста в заданной области и сохранения распознанного текста в переменную.

Настройки

СвойствоАнгл. наименованиеОписаниеТипПример заполненияОбязательность заполнения поля
Параметры

Изображение

Image

Путь к файлу изображения. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff)


Изображение

Область_текстаДа

Ожидаемые языки текста на изображении

Expected languages of text in the image

Ожидаемые языки текста на изображении

Выпадающий список из значений:

  • Русский язык
  • Английский язык
  • Русский и Английский язык
  • Испанский язык
  • Португальский язык


СтрокаРусский языкДа
Формат контента

Content format

Ожидаемый формат текста. Доступные форматы текста: (Line, Block, Page)

Выпадающий список из значений:

  • Строка
  • Блок
  • Страница


Строка

СтрокаДа

Параметры

Options

Параметры конфигурации для распознавания текста

Строка--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789Нет
Результаты
РезультатResult

Текст (string), который был получен из изображения


Строка



Особые условия использования

Отсутствуют.

Получить текст из PDF / Read text from PDF


Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Настройки

СвойствоАнгл. наименованиеОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
ИсточникSource

Путь к PDF файлу для распознавания.


Если тип файла неприменим, будет выведено предупреждение.

Путь к файлу

C:\Users\Документы\1.pdfДа
Основной языкPrimary language

Языки, который распознаватель ожидает в тексте.


Выпадающий список:

Справочник содержит следующие значения:

  • Русский - Russian;
  • Английский - English;
  • Русский и Английский;

По умолчанию значение равно "Русский".

!!! Реализация списком временная.

После подготовки тулзы с возможностью выбрать несколько элементов одновременно (на базе типа Robin.Collection), тип параметра и реализация его ввода будут изменены.

СтрокаРусскийДа
Страница документа
Document page 

Номер станицы файла, с которой будет считываться текст.



Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат.

Число2Да
Результаты
РезультатResult

Переменная, в которую будет сохранен распознанный текст.


Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение.

Строка



Особые условия использования

Отсутствуют.

Найти страницу в PDF / Find page in PDF


Данное действие предназначено для поиска страницы по введенному значению и получение ее номера.

Настройки

СвойствоАнгл. наименованиеОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
Путь к файлуPath to file

Путь к PDF-файлу, страница которого будет использована для распознавания.

Путь к файлу C:\Users\Документы\1.pdfДа
Основной языкPrimary language

Язык, который распознаватель ожидает в тексте.

По умолчанию значение равно "Русский".


Выпадающий список.

Справочник содержит следующие значения:

  • Russian - русский;
  • English - английский;
  • Русский и Английский;

!!! После появления соответствующей тулзы, пользователь будет иметь возможность выбрать несколько языков.

КоллекцияРусскийДа
ТекстText

Текст, который должна содержать страница.

СтрокаЗагрузитьДа
Результаты
Номер страницыPage number

Переменная, которая будет содержать номера всех найденных страниц.


Если страница не будет найдена вывести ошибку: "Не найдена страница, содержащая заданный текст."

Коллекция



Особые условия использования

Отсутствуют.


Извлечь данные в таблицу / Extract data to table

Группа действий: Распознавание текста 


Действие распознает текст с документа, разделяет его на блоки и сохраняет в табличном виде.


Настройки

СвойствоАнгл. наименованиеОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
Путь к файлуPath to file

Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf.

Путь к файлуC:\Users\Документы\1.pdfДа
Номер страницы
Page number
Номер страницы в многостраничном документе, данные которой нужно извлечь в таблицуЧисло
Нет
Язык
Language

Выпадающий список из элементов: Русский язык, Английский язык, Русский и английский языки, Испанский язык, Португальский язык. Значение по умолчанию - Русский и английский языки.


Предполагаемый язык текста, который необходимо распознать

Строка
Нет
Расстояние между словами
Distance between words
Максимальное расстояние между словами в пикселях для разделения блоков текста на столбцы таблицы. По умолчанию действие использует расстояние в 20 пикселейЧисло
Нет
Расстояние между строками
Line spacing
Максимальное расстояние между строками в пикселях для разделения блоков текста на строки таблицы. По умолчанию действие использует расстояние в 1 пиксель.Число
Нет
Путь к папке
Folder path
С учетом выбранного расстояния между словами и строками, действие делит распознаваемый текст на блоки. В поле можно указать путь к папке, в которую будет сохранено изображение распознанного текста с наложенными блоками. Для сохранения файла также нужно заполнить поле "Имя файла"Путь к папке
Нет
Имя файла
File name
Название файла изображения с наложенными блоками (без расширения). По умолчанию создается файл с расширением *.png. Для сохранения файла также нужно заполнить поле "Путь к папке"Строка
Нет
ПерезаписатьOverwriteЕсли значение равно True, и в указанной папке существует файл изображения с таким же именем и расширением, то новый файл его перезапишет. Если False, файл перезаписан не будет и действие вернет ошибку.Логический
Нет
Результаты
ТаблицаTableТаблица, сформированная на основе текста, извлеченного из исходного документа.Таблица

Путь к изображению с блоками
Path to image with blocks
Путь к файлу изображения с наложенными блоками.Путь к файлу


Особые условия использования 

Действие должно распознавать текст с документа и разбивать его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.

На вход можно давать документы:

  • только текстовый слой
  • только изображения
  • и текстовый слой, и изображения.

Работа действия основана алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.

Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст. 

Пример распознавания.

 

  • Нет меток