История страницы
Обучить модель классификации Версия 1 (Python)
Группа "Robin AI", подгруппа "Машинное обучение ".ITRPA-14786 - ROBIN AI. Классификатор текста (step1). Машинное обучение - spec DONEROBIN)"
...
Описание
Действие Данное действие обучает модель классификации текста. Альтернатива Preferentum по классификации текста. Используется совместно с действием "Классифицировать текст".
Входные параметры
...
Да
...
.
Задача классификации - определение типа объекта из двух или более существующих классов.
В зависимости от задачи классификации подбираются подходящие типы классификаторов.
Более подробно о методах классификации можно посмотреть здесь: Обзор методов классификации в машинном обучении с помощью Scikit-Learn (tproger.ru)
Параметры и их настройка
Данные для контракта действия:
Название
Название (англ)
Обязательное
Описание
Описание (англ)
Тип данных
Примечание
Да
Свойство | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
Параметры | ||||
Данные для обучения |
Путь к папке с данными для обучения модели классификации. Внутри папки содержатся подпапки, названия которых – это название класса. Внутри каждой подпапки должны быть txt-файлы с различными текстами, которые соответствуют классу |
Robin.FolderPath
каждой папке папка с классом.
там файлы формата .txt.
Если встретится другой формат, не обрабатываем, пропускаем.
Пример дерева объектов:
исходная папка:
в ней классы:
в классах:
Путь к папке | C:\Users\123\OneDrive\Рабочий стол\Папка с текстами | Да | |
Папка с результатом |
Путь к папке, в которую будет сохранена обученная модель классификации |
The path to the folder where the trained classification model will be saved.
В указанной папке будет создано 2 файла: machine_model.pkl – модель машинного обучения, и tfidf_model.pk – сохранение словаря, токены.
Путь к папке | C:\Users\123\OneDrive\Рабочий стол\Индексация | Да | |
Метод |
Метод, который будет использоваться для обучения модели классификации. |
The method that will be used to train the classification model.
Значение по умолчанию – RandomForest Параметр содержит следующие методы: |
|
В списке при смене языка студии на английский "Выбрать наиболее подходящий" сменяется на "Choose the most suitable", остальные варианты остаются на английском.
Перезаписать
| Строка | AdaBoost | Да |
Перезаписать | Если значение «true», и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. Если |
Файлы machine_model.pcl and tiff_model.pk должны быть уникальны в указанной папке.
«false», файл перезаписан не будет, и действие вернет ошибку |
Логический | true | Нет |
Стоп-слова |
The path to the txt file that contains stop words that will not be taken into account when training the classification model. Each stop word must be written on a new line.
Слова, несущие мало смысла для классификации, но часто встречающиеся, напр, в письмах:
- Доброе утро!
- Добрый день!
- С уважением,
- tel:
- email:
Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке |
Путь к файлу | C:\Users\123\OneDrive\Рабочий стол\Стоп-слова.txt | Нет | |
Словосочетания |
Путь к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строке |
Словосочетания нужны указания важности фразы целиком, без разделения по словам.
Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.
Возможные доработки
Ошибки
...
Данные для контракта действия:
...
Название
...
Название (англ)
...
Обязательное
...
Описание
...
Описание (англ)
...
Тип данных
...
Примечание
...
Действие обучает модель классификации текста.
...
Да
...
Robin.FolderPath
Путь к файлу | C:\Users\123\OneDrive\Рабочий стол\Словосочетания.txt | Нет | ||
Результаты | ||||
Результат | Процент точности обученной модели | Число |
Особые условия использования
Особых условий нет.
Пример использования
Задача
Имеется исходная папка "result":
В папке расположены подпапки-классы для обучения классификатора:
В каждой папке расположены txt-файлы с различными текстами, которые соответствуют классу:
Также имеются текстовые файлы со стоп-словами.
и со словосочетаниями.
Необходимо обучить модель классификации на имеющихся данных, сохранить обученную модель классификации в папку "Модель классификации"
и вывести процент точности обученной модели в переменной "Результат" через диалоговое окно.
Решение
Воспользоваться действиями "Обучить модель классификации" и "Сообщение".
Реализация
- Создать переменную "Результат" с типом "Число".
- Перетащить на рабочую область действие "Обучить модель классификации".
- Заполнить параметры действия "Обучить модель классификации".
Добавить в соответствующие поля параметров пути к папкам и файлам и выбрать метод.
В результат добавить переменную "Результат": - Перетащить на рабочую область действие "Сообщение".
- Заполнить параметры действия "Сообщение".
- Нажать на кнопку "Старт" в верхней панели.
Результат
Программный робот отработал успешно.
каждой папке папка с классом.
там файлы формата .txt.
Если встретится другой формат, не обрабатываем, пропускаем.
Пример дерева объектов:
исходная папка:
в ней классы:
в классах:
...
Путь к папке, в которую будет сохранена обученная модель классификации.
...
The path to the folder where the trained classification model will be saved.
...
Создана модель классификации, включающая в себя
2 файла: machine_model.pkl – модель машинного обучения
...
и tfidf_model.pk – сохранение словаря, токены.
...
Метод, который будет использоваться для обучения модели классификации.
...
The method that will be used to train the classification model.
...
Список методов:
- Выбрать наиболее подходящий – Choose the most suitable
- SVC
- RandomForest
- GradientBoosting
- AdaBoost
- DecisionTree
- KNeighboors
- Naive Bayes
В списке при смене языка студии на английский "Выбрать наиболее подходящий" сменяется на "Choose the most suitable", остальные варианты остаются на английском.
Процент точности обученной модели записан в переменную "Результат" и выведен в диалоговое окно.
...
Перезаписать
...
Файлы machine_model.pcl and tiff_model.pk должны быть уникальны в указанной папке.
...
Стоп-слова
...
Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке.
...
The path to the txt file that contains stop words that will not be taken into account when training the classification model. Each stop word must be written on a new line.
...
Слова, несущие мало смысла для классификации, но часто встречающиеся, напр, в письмах:
- Доброе утро!
- Добрый день!
- С уважением,
- tel:
- email:
...
Словосочетания нужны указания важности фразы целиком, без разделения по словам.
Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.
...
Возможные доработки
Вместо действия реализовать графический интерфейс, по типу обновления драйверов для браузера.
Принимать .msg.
Use-cases
UC Действие "Обучить модель классификации"
Станьте первыми кому понравится это
Написать комментарий...
Обучить модель классификации / Train classification model
Группа действий: Robin AI