Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Группа "Robin AI", подгруппа "Машинное обучение".

Описание

Процесс машинного обучения содержит в себе следующие этапы: подготовка данных, создание обучающих наборов, создание классификатора, обучение классификатора, составление прогнозов, оценка производительности классификатора и настройка параметров.

Данное действие обучает модель классификации текста.  Задача классификации - определение типа объекта из двух или более существующих классов. В зависимости от задачи классификации подбираются  подходящие типы классификаторов.   Действие обучает модель классификации текста.  Используется совместно с действием "Классифицировать текст". Является  альтернативой Preferentum по классификации текста.

Более подробно о методах классификации можно посмотреть здесь: Обзор методов классификации в машинном обучении с помощью Scikit-Learn (tproger.ru)

Входные параметры   

  • Данные для обучения         Путь к папке с данными для обучения модели классификации. Внутри папки содержатся подпапки с классами, названия которых – это название класса. Класс - это .. ......                                                                                                              Внутри каждой подпапки должны быть файлы формата .txt. с различными текстами, которые соответствуют классу. Форматы текстов создаются Пользователем.
  • Папка с результатом        Путь к папке, в которую будет сохранена обученная модель классификации. В указанной папке должно быть создано 2 файла: machine_model.pkl – модель машинного обучения, и tfidf_model.pk – сохранение словаря, токены.
  • Метод                                  Метод, который будет использоваться для обучения модели классификации. методы  базируются на различных алгоритмах классификации. Метод выбирает Пользователь. Для обучения модели классификации могут быть использованы следующие методы: 
            • Выбрать наиболее подходящий – Choose the most suitable
            • SVC - метод опорных векторов 
            • RandomForest - классификатор дерева решений
            • GradientBoosting
            • AdaBoost
            • nTree - классификатор дерева решений
            • KNeighboors - метод к-ближайших соседей
            • Naive Bayes - наивный байесовский метод


  • Перезаписать                   Если значение параметра  "true", и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. 

...

  • Доброе утро!
  • Добрый день!
  • С уважением,
  • tel:
  • email:
  • Словосочетания             Путь к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строке. 

                                     Словосочетания нужны для указания важности фразы целиком, без разделения по словам.

                                     Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.

Выходные параметры


  • Результат                 Результат показывает  процент точности обученной модели, полученный путем сравнения тестовой и тренировочной выборки  в процентном соотношении

...

Свойство

Описание

Тип данных

Пример заполнения

Обязательное

Параметры



Данные для обученияПуть к папке с данными для обучения модели классификации. Внутри папки содержатся подпапки, названия которых – это название класса. Внутри каждой подпапки должны быть txt-файлы с различными текстами, которые соответствуют классу.

Robin.FolderPath

C:\Классификатор\Классификатор\result

Да

Папка с результатом

Путь к папке, в которую будет сохранена обученная модель классификации.




Robin.FolderPathC:\Классификатор\Классификатор\modelДа
Метод

Метод, который будет использоваться для обучения модели классификации.

Robin.Stringвыбирается из выпадающего спискаДа

Перезаписать

Если значение "true", и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. Если "false", файл перезаписан не будет, и действие вернет ошибку.Robin.Booleanотметка галочкойНет

Стоп-слова

Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке.

Robin.FilePathC:\Классификатор\Классификатор\stopwords.txtНет
СловосочетанияПуть к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строке.Robin.FilePathC:\Классификатор\Классификатор\combinations.txtНет
Результаты



РезультатПроцент точности обученной модели.Robin.Numeric

...