Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Прочитать текст Версия

...

11 (Python)

Группа действий: Распознавание текста 

...

Результат                                                           Текст (string), который был получен из изображения

Настройки

СвойствоОписаниеТипПример заполненияОбязательность заполнения поля
Параметры

Изображение

Путь к файлу изображения. Поддерживаемые форматы изображений: (jpeg, jpg, bmp, png, tif, tiff)


Изображение

Область_текстаДа

Ожидаемые языки текста на изображении

Ожидаемые языки текста на изображении

Выпадающий список из значений:

  • Русский язык
  • Английский язык
  • Русский и английский язык
  • Испанский язык
  • Португальский язык
Арабский
  • Вьетнамский
  • Русский и английский язык
  • Вьетнамский и английский
    • Арабский
    и английский
  • Испанский и английский
  • Португальский и английский
    СтрокаРусский язык
    ДаФормат контента

    Ожидаемый формат текста. Доступные форматы текста: (Line, Block, Page)

    Выпадающий список из значений:

    • Строка
    • Блок
    • Страница

    Строка

    Строка
    Да

    Параметры

    Параметры конфигурации для распознавания текста

    https://muthu.co/all-tesseract-ocr-options/

    Строка--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789Нет
    Результаты
    Результат

    Текст (string), который был получен из изображения


    Строка



    Особые условия использования

    ...

    Список всех параметров: https://muthu.co/all-tesseract-ocr-options/.

    ПараметрЗначение по умолчаниюОписание
    Основные параметры
    oem3
    • 0: Использовать только устаревший движок tesseract
    • 1: Использовать только нейросеть LSTM
    • 2: Использовать одновременно старый движок tesseract и нейросеть LSTM
    • 3: Значение по умолчанию, используется то, что доступно
    psm3
    • 0: Обнаружение только ориентации и сценария (OSD)

    • 1: Автоматическая сегментация страниц с помощью экранного меню

    • 2: Автоматическая сегментация страниц, но без OSD или OCR

    • 3: Полностью автоматическая сегментация страниц, но без экранного меню

    • 4: Предположительно, что в тексте один столбец переменных размеров

    • 5: Предположительно, что текст - это единый однородный блок вертикально выровненного текста

    • 6: Изображение рассматривается как один единый блок текста

    • 7: Изображение рассматривается как одна текстовая строка

    • 8: Изображение рассматривается как одно слово

    • 9: Изображение рассматривается как одно слово в круге

    • 10: Изображение рассматривается как один символ

    • 11: Разреженный текст. Поиск как можно больше текста в произвольном порядке

    • 12: Разреженный текст с экранным меню

    • 13: Необработанная строка. Изображение рассматривается как одна текстовая строка, минуя хаки, специфичные для Tesseract

    Дополнительные параметры
    edges_min_nonhole14Минимальное число пикселей бокса для распознавания
    textord_space_size_is_variable0Если задано значение true (1), предполагается, что пробелы разделителей слов имеют переменную ширину, даже если символы имеют фиксированный шаг
    textord_tabfind_find_tables1Запустить детектирование таблиц
    textord_force_make_prop_words0Применить пропорциональную сегментацию слов во всех строках
    textord_width_limit8Максимальная ширина блоков для создания строк
    tessedit_pageseg_mode6
    • 0: Только обнаружение ориентации и сценария

    • 1: Автоматический режим + обнаружение ориентации

    • 2: Автоматический режим

    • 3: Обнаружение столбцов

    • 4: Обнаружение блоков

    • 5: Обнаружение строк

    • 6: Обнаружение слов

    • 7: Обнаружение символов

    textord_max_noise_size7Максимальный размер шума в пикселях
    tessedit_dont_blkrej_good_wds0Если задано значение true (1), используется показатель качества сегментации слов
    tessedit_char_blacklist
    Черный список символов, которые нельзя распознать
    tessedit_char_whitelist
    Белый список символов для распознавания
    List of chars to override tessedit_char_blacklist
    Список символов для переопределения tessedit_char_blacklist

    Пример использования

    Задача

    ...