Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Оглавление

Прочитать текст / Read text

Данное действие предназначено для распознавания печатного текста в заданной области и сохранения распознанного текста в переменную.

Image Removed

Настройки

...

Изображение

...

Image

Путь к файлу изображения. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff)

...

Изображение

...

Ожидаемые языки текста на изображении

...

Expected languages of text in the image

Ожидаемые языки текста на изображении

Выпадающий список из значений:

  • Русский язык
  • Английский язык
  • Русский и Английский язык
  • Испанский язык
  • Португальский язык

...

Content format

Ожидаемый формат текста. Доступные форматы текста: (Line, Block, Page)

Выпадающий список из значений:

  • Строка
  • Блок
  • Страница

...

Строка

...

Параметры

...

Options

...

Параметры конфигурации для распознавания текста

...

Текст (string), который был получен из изображения

...

Строка

Особые условия использования

Отсутствуют.

Получить текст из PDF / Read text from PDF

Данное действие предназначено для распознавания текста из указанной страницы PDF документа и сохранения распознанного текста в переменную.

Image Removed

Настройки

...

Путь к PDF файлу для распознавания.

Если тип файла неприменим, будет выведено предупреждение.

...

Путь к файлу

...

Языки, который распознаватель ожидает в тексте.

Выпадающий список:

Справочник содержит следующие значения:

  • Русский - Russian;
  • Английский - English;
  • Русский и Английский;

По умолчанию значение равно "Русский".

!!! Реализация списком временная.

После подготовки тулзы с возможностью выбрать несколько элементов одновременно (на базе типа Robin.Collection), тип параметра и реализация его ввода будут изменены.

...

Document page 

Номер станицы файла, с которой будет считываться текст.

Если документ не содержит указанной страницы, ошибки не будет, будет пустой результат.

...

Переменная, в которую будет сохранен распознанный текст.

Если изображение не содержит текст или его невозможно прочитать, будет сохранено пустое значение.

...

Строка

Особые условия использования

Отсутствуют.

Найти страницу в PDF / Find page in PDF

Данное действие предназначено для поиска страницы по введенному значению и получение ее номера.

Image Removed

Настройки

...

Путь к PDF-файлу, страница которого будет использована для распознавания.

...

Язык, который распознаватель ожидает в тексте.

По умолчанию значение равно "Русский".

Выпадающий список.

Справочник содержит следующие значения:

  • Russian - русский;
  • English - английский;
  • Русский и Английский;

!!! После появления соответствующей тулзы, пользователь будет иметь возможность выбрать несколько языков.

...

Текст, который должна содержать страница.

...

Переменная, которая будет содержать номера всех найденных страниц.

Если страница не будет найдена вывести ошибку: "Не найдена страница, содержащая заданный текст."

...

Коллекция

Особые условия использования

Отсутствуют.

Извлечь данные в таблицу / Extract data to table

Группа действий: Распознавание текста 

Действие распознает текст с документа, разделяет его на блоки и сохраняет в табличном виде.

Настройки

...

Путь к файлу, из которого нужно извлечь данные. Поддерживаемые форматы: jpg, jpeg, bmp, png, tif, pdf.

...

Language

Выпадающий список из элементов: Русский язык, Английский язык, Русский и английский языки, Испанский язык, Португальский язык. Значение по умолчанию - Русский и английский языки.

Предполагаемый язык текста, который необходимо распознать

...

Distance between words

...

Folder path

...

File name

...

Path to image with blocks

...

Особые условия использования 

Действие должно распознавать текст с документа и разбивать его на блоки в зависимости от указанных входных параметров (расстояние между строками\словами) извлекает данные из текстовых документов и сохраняет их в виде таблицы. При этом исходный документ может и не содержать таблицы.

На вход можно давать документы:

  • только текстовый слой
  • только изображения
  • и текстовый слой, и изображения.

Работа действия основана алгоритме извлечения блоков текста документа. Слова и строки документа объединяются в блоки на основе максимального расстояния между словами и максимального расстояния между строками. Эти параметры задаются во входных параметрах действия.

Примеры таких документов: кассовые чеки; документы, содержащие табличные данные с\без разделителей; документы, содержащие сплошной текст. 

Пример распознавания.

 Image RemovedImage Removed

Отображение дочерних элементов