История страницы
Обучить модель
...
классификации Версия 1 (
...
Python)
Группа "Robin AI", подгруппа "Классификатор (ROBIN)"
...
Задача классификации - определение типа объекта из двух или более существующих классов.
В зависимости от задачи классификации подбираются подходящие типы классификаторов.
Более подробно о методах классификации можно посмотреть здесь: Обзор методов классификации в машинном обучении с помощью Scikit-Learn (tproger.ru)
Параметры
...
Входные параметры
...
и их настройка
Свойство | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
Параметры | ||||
Данные для обучения | Путь к папке с данными для обучения модели классификации. |
...
Внутри папки содержатся подпапки |
...
, названия которых – это название класса. Внутри каждой подпапки должны быть |
...
txt-файлы с различными текстами, которые соответствуют классу |
...
Путь к папке | C:\Users\123\OneDrive\Рабочий стол\Папка с текстами | Да | |
Папка с результатом | Путь |
...
к папке, в которую будет сохранена обученная модель классификации |
...
Путь к папке | C:\Users\123\OneDrive\Рабочий стол\Индексация | Да | |
Метод | Метод |
...
, который будет использоваться для обучения модели классификации. |
...
Значение по умолчанию – RandomForest |
...
Параметр содержит следующие методы:
|
...
Перезаписать если значение параметра "true", и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан.
Если значение параметра"false", файл перезаписан не будет, и действие выдаст ошибку. Файлы machine_model.pcl and tiff_model.pk должны быть уникальны в указанной папке.
Стоп-слова путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации.
Каждое стоп-слово должно быть записано на новой строке. Слова, несущие мало смысла для классификации, но часто встречающиеся, например, в письмах: Доброе утро!,
Добрый день!, С уважением, tel:, email:.
...
Выходные параметры
- Результат – результат показывает процент точности обученной модели, полученный путем сравнения тестовой и тренировочной выборки в процентном соотношении.
Настройки
...
Строка | AdaBoost | Да | ||
Перезаписать | Если значение «true», и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. Если «false», файл перезаписан не будет, и действие вернет ошибку | Логический | true | Нет |
Стоп-слова | Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке | Путь к файлу | C:\Users\123\OneDrive\Рабочий стол\Стоп-слова.txt | Нет |
Словосочетания | Путь к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строке | Путь к файлу | C:\Users\123\OneDrive\Рабочий стол\Словосочетания.txt | Нет |
Результаты | ||||
Результат | Процент точности обученной модели | Число |
Особые условия использования
...
Пример использования
Задача
Имеется исходная папка "result":
В папке расположены подпапки-классы для обучения классификатора:
В каждой папке расположены txtрасположены txt-файлы с различными текстами, которые соответствуют классу:
Также имеются текстовые файлы со стоп-словами.
и со словосочетаниями.
Необходимо обучить модель классификации на имеющихся данных, сохранить сохранить обученную модель классификации в классификации в папку "Модель классификации"
и вывести процент точности обученной модели в переменной "Результат" через диалоговое окно.
Решение
Воспользоваться действиями "Обучить модель классификации" и "Сообщение".
...
- Создать переменную "Результат" с типом "Число".
- Перетащить на рабочую область действие "Обучить модель классификации".
- Заполнить параметры действия "Обучить модель классификации".
Добавить в соответствующие поля параметров пути к папкам и файлам и выбрать метод.
В результат добавить переменную "Результат": - Перетащить на рабочую область действие "Сообщение".
- Заполнить параметры действия "Сообщение".
- Нажать на кнопку "Старт" в верхней панели.
...
Создана модель классификации, включающая в себя 2 файла: machine_model.pkl – модель машинного обучения и tfidf_model.pk – сохранение словаря, токены.
Процент точности обученной модели записан в переменную "Результат" и выведен в диалоговое окно.