История страницы
Обучить модель классификации Версия 1 (Python)
- Перейти к содержимому
- Перейти к "Хлебным крошкам"
- Перейти к меню заголовка
- Перейти к меню действий
- Перейти к быстрому поиск
Confluence
Действие "Обучить модель классификации"
Перейдите к началу баннераПерейти к концу метаданных
Группа "Robin AI", подгруппа "Машинное обучение ".ITRPA-14786 - ROBIN AI. Классификатор текста (step1). Машинное обучение - spec DONE
Общие положения
Действие реализовать на python.
Альтернатива Preferentum по классификации текста.
Не можем дообучать модель. на 20000 записей работают 2-3 минуты.
Ошибки
...
ROBIN)"
...
Описание
Данное действие обучает модель классификации текста.
Задача классификации - определение типа объекта из двух или более существующих классов.
В зависимости от задачи классификации подбираются подходящие типы классификаторов.
Более подробно о методах классификации можно посмотреть здесь: Обзор методов классификации в машинном обучении с помощью Scikit-Learn (tproger.ru)
Параметры и их настройка
Данные для контракта действия:
Название
Название (англ)
Обязательное
Описание
Описание (англ)
Тип данных
Примечание
Действие обучает модель классификации текста.
Да
Свойство | Описание | Тип | Пример заполнения | Обязательность заполнения поля |
Параметры | ||||
Данные для обучения |
Путь к папке с данными для обучения модели классификации. Внутри папки содержатся подпапки, названия которых – это название класса. Внутри каждой подпапки должны быть txt-файлы с различными текстами, которые соответствуют классу |
Robin.FolderPath
каждой папке папка с классом.
там файлы формата .txt.
Если встретится другой формат, не обрабатываем, пропускаем.
Пример дерева объектов:
исходная папка:
в ней классы:
в классах:
Путь к папке | C:\Users\123\OneDrive\Рабочий стол\Папка с текстами | Да | |
Папка с результатом | Путь к папке, в которую будет сохранена обученная модель классификации |
The path to the folder where the trained classification model will be saved.
В указанной папке будет создано 2 файла: machine_model.pkl – модель машинного обучения, и tfidf_model.pk – сохранение словаря, токены.
Путь к папке | C:\Users\123\OneDrive\Рабочий стол\Индексация | Да | |
Метод |
Метод, который будет использоваться для обучения модели классификации. |
The method that will be used to train the classification model.
Значение по умолчанию – RandomForest Параметр содержит следующие методы: |
|
В списке при смене языка студии на английский "Выбрать наиболее подходящий" сменяется на "Choose the most suitable", остальные варианты остаются на английском.
Перезаписать
| Строка | AdaBoost | Да |
Перезаписать | Если значение «true», и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. Если |
Файлы machine_model.pcl and tiff_model.pk должны быть уникальны в указанной папке.
«false», файл перезаписан не будет, и действие вернет ошибку |
Логический | true | Нет |
Стоп-слова |
Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке |
Путь к файлу | C:\Users\123\OneDrive\Рабочий стол\Стоп-слова.txt | Нет | |
Словосочетания |
The path to the txt file that contains stop words that will not be taken into account when training the classification model. Each stop word must be written on a new line.
Слова, несущие мало смысла для классификации, но часто встречающиеся, напр, в письмах:
- Доброе утро!
- Добрый день!
- С уважением,
- tel:
- email:
Путь к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строке |
Словосочетания нужны указания важности фразы целиком, без разделения по словам.
Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.
Возможные доработки
Вместо действия реализовать графический интерфейс, по типу обновления драйверов для браузера.
Принимать .msg.
Use-cases
UC Действие "Обучить модель классификации"
Станьте первыми кому понравится это
Написать комментарий...
Обучить модель классификации / Train classification model
Путь к файлу | C:\Users\123\OneDrive\Рабочий стол\Словосочетания.txt | Нет | ||
Результаты | ||||
Результат | Процент точности обученной модели | Число |
Особые условия использования
Особых условий нет.
Пример использования
Задача
Имеется исходная папка "result":
В папке расположены подпапки-классы для обучения классификатора:
В каждой папке расположены txt-файлы с различными текстами, которые соответствуют классу:
Также имеются текстовые файлы со стоп-словами.
и со словосочетаниями.
Необходимо обучить модель классификации на имеющихся данных, сохранить обученную модель классификации в папку "Модель классификации"
и вывести процент точности обученной модели в переменной "Результат" через диалоговое окно.
Решение
Воспользоваться действиями "Обучить модель классификации" и "Сообщение".
Реализация
- Создать переменную "Результат" с типом "Число".
- Перетащить на рабочую область действие "Обучить модель классификации".
- Заполнить параметры действия "Обучить модель классификации".
Добавить в соответствующие поля параметров пути к папкам и файлам и выбрать метод.
В результат добавить переменную "Результат": - Перетащить на рабочую область действие "Сообщение".
- Заполнить параметры действия "Сообщение".
- Нажать на кнопку "Старт" в верхней панели.
Результат
Программный робот отработал успешно.
Создана модель классификации, включающая в себя 2 файла: machine_model.pkl – модель машинного обучения и tfidf_model.pk – сохранение словаря, токены.
Процент точности обученной модели записан в переменную "Результат" и выведен в диалоговое окно.
Группа действий: Robin AI