Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Обучить модель классификации Версия 1 (Python)

Группа "Robin AI", подгруппа "Машинное обучение ".Image RemovedITRPA-14786 - ROBIN AI. Классификатор текста (step1). Машинное обучение - spec DONEROBIN)"

...

Описание

Действие Данное действие обучает модель классификации текста. Альтернатива Preferentum по классификации текста. Используется совместно с действием "Классифицировать текст".

Входные параметры

...

Да

...

.

Задача классификации - определение типа объекта из двух или более существующих классов.
В зависимости от задачи классификации подбираются подходящие типы классификаторов. 
Более подробно о методах классификации можно посмотреть здесь: Обзор методов классификации в машинном обучении с помощью Scikit-Learn (tproger.ru)

Иконка действия

Image Added

Параметры и их настройка

Данные для контракта действия: 

Название

Название (англ)

Обязательное

Описание

Описание (англ)

Тип данных

Примечание

Входные параметрыДанные для обученияThe path to the source folder

Да

СвойствоОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
Данные для обучения
Путь к папке с данными для обучения модели классификации. Внутри папки содержатся подпапки, названия которых – это название класса. Внутри каждой подпапки должны быть txt-файлы с различными текстами, которые соответствуют классу
.The path to the data folder for training the classification model. Inside the folder there are subfolders whose names are the name of the class. Inside each subfolder there should be txt files with various texts that correspond to the class.

Robin.FolderPath

каждой папке папка с классом.

там файлы формата .txt.

Если встретится другой формат, не обрабатываем, пропускаем.

Пример дерева объектов:

исходная папка:

Image Removed

в ней классы:

Image Removed

в классах:

Image Removed

Image Removedresult.zip

Папка с результатомPath to the resulting folder
Путь к папкеC:\Users\123\OneDrive\Рабочий стол\Папка с текстамиДа
Папка с результатом
Да
Путь к папке, в которую будет сохранена обученная модель классификации
.

The path to the folder where the trained classification model will be saved.

Robin.FolderPath

В указанной папке будет создано 2 файла: machine_model.pkl – модель машинного обучения, и tfidf_model.pk – сохранение словаря, токены.

МетодMethodДа
Путь к папкеC:\Users\123\OneDrive\Рабочий стол\ИндексацияДа
Метод
Метод, который будет использоваться для обучения модели классификации.

The method that will be used to train the classification model.

Robin.String
Значение по умолчанию – RandomForest

Параметр содержит следующие методы: 

Список методов:

  1. Выбрать наиболее подходящий
– Choose the most suitable
  • SVC
  • RandomForest
  • GradientBoosting
  • AdaBoost
  • DecisionTree
  • KNeighboors
  • Naive Bayes
  • В списке при смене языка студии на английский "Выбрать наиболее подходящий" сменяется на "Choose the most suitable", остальные варианты остаются на английском.

    Перезаписать

    OverwriteНетЕсли значение "true"
    1. SVC (Support Vector Machines) – метод опорных векторов 
    2. RandomForest – метод случайного леса
    3. GradientBoosting – градиентный бустинг
    4. AdaBoost (Adaptive Boosting) – адаптивный бустинг
    5. DecisionTree (Decision Tree Classifier) – классификатор дерева решений 
    6. KNeighboors (K-Nearest Neighbors) – метод k-ближайших соседей
    7. Naive Bayes – наивный байесовский метод
    СтрокаAdaBoostДа
    ПерезаписатьЕсли значение «true», и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. Если
    "false"If the value is "true", and a file with the same name and extension already exists in the folder with the result, then it will be overwritten. If "false", the file will not be overwritten, and the action will return an error.Robin.Boolean

    Файлы machine_model.pcl and tiff_model.pk должны быть уникальны в указанной папке.

    «false», файл перезаписан не будет, и действие вернет ошибку
    .
    ЛогическийtrueНет
    Стоп-слова
    Custom Stop WordsНет

    The path to the txt file that contains stop words that will not be taken into account when training the classification model. Each stop word must be written on a new line.

    Robin.FilePath

    Слова, несущие мало смысла для классификации, но часто встречающиеся, напр, в письмах:

    • Доброе утро!
    • Добрый день!
    • С уважением,
    • tel:
    • email:
    СловосочетанияWord combinationНет
    Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке
    .
    Путь к файлуC:\Users\123\OneDrive\Рабочий стол\Стоп-слова.txtНет
    Словосочетания
    Путь к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строке
    .The path to the txt file containing phrases, which, when training the model, it is important not to divide into separate words in order to preserve the meaning of the entire phrase. Each phrase must be written on a new line.Robin.FilePath

    Словосочетания нужны указания важности фразы целиком, без разделения по словам.

    Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.

    Выходные параметрыРезультатResultПроцент точности обученной модели.The percentage of accuracy of the trained model.Robin.NumericТестовая и тренировочная выборки сравниваются и получается процент

    Возможные доработки

     

    Ошибки

    ...

    Данные для контракта действия: 

    ...

    Название

    ...

    Название (англ)

    ...

    Обязательное

    ...

    Описание

    ...

    Описание (англ)

    ...

    Тип данных

    ...

    Примечание

    ...

    Действие обучает модель классификации текста.

    ...

    Да

    ...

    Robin.FolderPath

    Путь к файлуC:\Users\123\OneDrive\Рабочий стол\Словосочетания.txtНет
    Результаты
    РезультатПроцент точности обученной моделиЧисло

    Особые условия использования

    Особых условий нет.

    Пример использования

    Задача

    Имеется исходная папка "result":
    Image Added

    В папке расположены подпапки-классы для обучения классификатора:
    Image Added

    В каждой папке расположены txt-файлы с различными текстами, которые соответствуют классу:
    Image Added

    Также имеются текстовые файлы со стоп-словами.
    Image Added

    и со словосочетаниями.
    Image Added

    Необходимо обучить модель классификации на имеющихся данных, сохранить обученную модель классификации в папку "Модель классификации"
    и вывести процент точности обученной модели в переменной "Результат" через диалоговое окно.

    Решение

    Воспользоваться действиями  "Обучить модель классификации" и "Сообщение".

    Реализация

    1. Создать переменную "Результат" с типом "Число".
      Image Added
    2. Перетащить на рабочую область действие "Обучить модель классификации".
      Image Added
    3. Заполнить параметры действия "Обучить модель классификации". 
      Добавить в соответствующие поля параметров пути к папкам и файлам и выбрать метод.
      В результат добавить переменную "Результат":
      Image Added
    4. Перетащить на рабочую область действие "Сообщение".
      Image Added
    5. Заполнить параметры действия "Сообщение".
      Image Added
    6. Нажать на кнопку "Старт" в верхней панели.

    Результат

    Программный робот отработал успешно.

    каждой папке папка с классом.

    там файлы формата .txt.

    Если встретится другой формат, не обрабатываем, пропускаем.

    Пример дерева объектов:

    исходная папка:

    Image Removed

    в ней классы:

    Image Removed

    в классах:

    Image Removed

    Image Removedresult.zip

    ...

    Путь к папке, в которую будет сохранена обученная модель классификации.

    ...

    The path to the folder where the trained classification model will be saved.

    ...

    Создана модель классификации, включающая в себя 

    2 файла: machine_model.pkl – модель машинного обучения

    ...

    и tfidf_model.pk – сохранение словаря, токены.

    ...

    Метод, который будет использоваться для обучения модели классификации.

    ...

    The method that will be used to train the classification model.

    ...

    Список методов:

    • Выбрать наиболее подходящий – Choose the most suitable
    • SVC
    • RandomForest
    • GradientBoosting
    • AdaBoost
    • DecisionTree
    • KNeighboors
    • Naive Bayes

    В списке при смене языка студии на английский "Выбрать наиболее подходящий" сменяется на "Choose the most suitable", остальные варианты остаются на английском.

    Image Added

    Процент точности обученной модели записан в переменную "Результат" и выведен в диалоговое окно.
    Image Added

    Image Added

    ...

    Перезаписать

    ...

    Файлы machine_model.pcl and tiff_model.pk должны быть уникальны в указанной папке.

    ...

    Стоп-слова

    ...

    Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке.

    ...

    The path to the txt file that contains stop words that will not be taken into account when training the classification model. Each stop word must be written on a new line.

    ...

    Слова, несущие мало смысла для классификации, но часто встречающиеся, напр, в письмах:

    • Доброе утро!
    • Добрый день!
    • С уважением,
    • tel:
    • email:

    ...

    Словосочетания нужны указания важности фразы целиком, без разделения по словам.

    Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.

    ...

    Возможные доработки

    Вместо действия реализовать графический интерфейс, по типу обновления драйверов для браузера.

    Принимать .msg.

    Use-cases

    UC Действие "Обучить модель классификации"  

    Написать комментарий...

    Atlassian

    Обучить модель классификации / Train classification model

    Группа действий: Robin AI