История страницы

...

Результат Текст (string), который был получен из изображения

Настройки

Свойство

Англ. наименование

Описание	Тип	Пример заполнения	Обязательность заполнения поля
Параметры
Изображение

Image

Путь к файлу изображения. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff)

Изображение

Область_текста

Да

Ожидаемые языки текста на изображении

Expected languages of text in the image

Ожидаемые языки текста на изображении

Выпадающий список из значений:

Русский язык
Английский язык
Русский и Английский язык
Испанский язык
Португальский язык

Строка

Русский язык

Да

Формат контента

Content format

Ожидаемый формат текста. Доступные форматы текста: (Line, Block, Page)

Выпадающий список из значений:

Строка
Блок
Страница

Строка

Да

Параметры

Options

Параметры конфигурации для распознавания текста

https://muthu.co/all-tesseract-ocr-options/

Строка

--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789

Нет

Результаты

Результат

Result

Текст (string), который был получен из изображения

Строка

Особые условия использования

...

Список всех параметров: https://muthu.co/all-tesseract-ocr-options/.

Параметр	Значение по умолчанию	Описание
Основные параметры
oem	3	0: Использовать только устаревший движок tesseract 1: Использовать только нейросеть LSTM 2: Использовать одновременно старый движок tesseract и нейросеть LSTM 3: Значение по умолчанию, используется то, что доступно
psm	3	0: Обнаружение только ориентации и сценария (OSD) 1: Автоматическая сегментация страниц с помощью экранного меню 2: Автоматическая сегментация страниц, но без OSD или OCR 3: Полностью автоматическая сегментация страниц, но без экранного меню 4: Предположительно, что в тексте один столбец переменных размеров 5: Предположительно, что текст - это единый однородный блок вертикально выровненного текста 6: Изображение рассматривается как один единый блок текста 7: Изображение рассматривается как одна текстовая строка 8: Изображение рассматривается как одно слово 9: Изображение рассматривается как одно слово в круге 10: Изображение рассматривается как один символ 11: Разреженный текст. Поиск как можно больше текста в произвольном порядке 12: Разреженный текст с экранным меню 13: Необработанная строка. Изображение рассматривается как одна текстовая строка, минуя хаки, специфичные для Tesseract
Дополнительные параметры
edges_min_nonhole	14	Минимальное число пикселей бокса для распознавания
textord_space_size_is_variable	0	Если задано значение true (1), предполагается, что пробелы разделителей слов имеют переменную ширину, даже если символы имеют фиксированный шаг
textord_tabfind_find_tables	1	Запустить детектирование таблиц
textord_force_make_prop_words	0	Применить пропорциональную сегментацию слов во всех строках
textord_width_limit	8	Максимальная ширина блоков для создания строк
tessedit_pageseg_mode	6	0: Только обнаружение ориентации и сценария 1: Автоматический режим + обнаружение ориентации 2: Автоматический режим 3: Обнаружение столбцов 4: Обнаружение блоков 5: Обнаружение строк 6: Обнаружение слов 7: Обнаружение символов
textord_max_noise_size	7	Максимальный размер шума в пикселях
tessedit_dont_blkrej_good_wds	0	Если задано значение true (1), используется показатель качества сегментации слов
tessedit_char_blacklist		Черный список символов, которые нельзя распознать
tessedit_char_whitelist		Белый список символов для распознавания
List of chars to override tessedit_char_blacklist		Список символов для переопределения tessedit_char_blacklist

Пример использования

Задача

...

Дерево страниц

Сравнение версий

Старая версия 19

Новая версия 20

Ключ

Настройки

Особые условия использования

Пример использования

Задача