Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Задача классификации - определение типа объекта из двух или более существующих классов.
В зависимости от задачи классификации подбираются подходящие типы классификаторов. 
Более подробно о методах классификации можно посмотреть здесь: Обзор методов классификации в машинном обучении с помощью Scikit-Learn (tproger.ru)

Иконка действия

Image Modified

Параметры

...

Входные параметры

...

и их настройка

СвойствоОписаниеТипПример заполненияОбязательность заполнения поля
Параметры
Данные для обученияПуть к папке с данными для обучения модели классификации.

...

Внутри папки содержатся подпапки

...

, названия которых – это название класса. Внутри каждой подпапки должны быть

...

txt-файлы с различными текстами, которые соответствуют классу

...

Путь к папкеC:\Users\123\OneDrive\Рабочий стол\Папка с текстамиДа
Папка с результатомПуть

...

к папке, в которую будет сохранена обученная модель классификации

...

Путь к папкеC:\Users\123\OneDrive\Рабочий стол\ИндексацияДа
МетодМетод

...

, который будет использоваться для обучения модели классификации.

...

Значение по умолчанию – RandomForest

...

Параметр содержит следующие методы: 

  1. Выбрать наиболее подходящий
  2. SVC (Support Vector Machines) – метод опорных векторов 
  3. RandomForest – метод случайного леса
  4. GradientBoosting – градиентный бустинг
  5. AdaBoost (Adaptive Boosting) – адаптивный бустинг
  6. DecisionTree (Decision Tree Classifier) – классификатор дерева решений 
  7. KNeighboors (K-Nearest Neighbors) – метод k-ближайших соседей
  8. Naive Bayes – наивный байесовский метод

...

Перезаписать                         Если значение параметра  "true", и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. 
                                                Если значение параметра"false", файл перезаписан не будет, и действие выдаст ошибку. Файлы machine_model.pcl and tiff_model.pk должны быть
                                                уникальны в указанной папке.

Стоп-слова                             Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации.
                                                Каждое стоп-слово должно быть записано на новой строке. Слова, несущие мало смысла для классификации, но часто встречающиеся, например,
                                                в письмах: Доброе утро!, Добрый день!, С уважением, tel:, email:.

Словосочетания                    Путь к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы.
                                                Каждое словосочетание должно быть записано на новой строке. Словосочетания нужны для указания важности фразы целиком, без разделения по словам.
                                                Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.

Выходные параметры

Результат                               Результат показывает процент точности обученной модели, полученный путем сравнения тестовой и тренировочной выборки в процентном соотношении.

Настройки

СвойствоОписаниеТипПример заполненияОбязательность заполнения поляПараметрыДанные для обученияПуть к папке с данными для обучения модели классификации. Внутри папки содержатся подпапки, названия которых – это название класса. Внутри каждой подпапки должны быть txt-файлы с различными текстами, которые соответствуют классуПуть к папкеC:\Users\123\OneDrive\Рабочий стол\Папка с текстамиДаПапка с результатомПуть к папке, в которую будет сохранена обученная модель классификацииПуть к папкеC:\Users\123\OneDrive\Рабочий стол\ИндексацияДаМетодМетод, который будет использоваться для обучения модели классификации. Значение по умолчанию – RandomForest
СтрокаAdaBoostДа
ПерезаписатьЕсли значение «true», и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. Если «false», файл перезаписан не будет, и действие вернет ошибкуЛогическийtrueНет
Стоп-словаПуть к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строкеПуть к файлуC:\Users\123\OneDrive\Рабочий стол\Стоп-слова.txtНет
СловосочетанияПуть к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строкеПуть к файлуC:\Users\123\OneDrive\Рабочий стол\Словосочетания.txtНет
Результаты
РезультатПроцент точности обученной моделиЧисло

Особые условия использования

...

В папке расположены подпапки-классы для обучения классификатора:

В каждой папке расположены txtрасположены txt-файлы с различными текстами, которые соответствуют классу:

Также имеются текстовые файлы со стоп-словами.

и со словосочетаниями.

 Необходимо Необходимо обучить модель классификации на имеющихся данных,  сохранить сохранить обученную модель классификации в классификации в папку "Модель классификации"
и вывести процент точности обученной модели в переменной "Результат" через диалоговое окно.

...

  1. Создать переменную "Результат" с типом "Число".
  2. Перетащить на рабочую область действие "Обучить модель классификации".
  3. Заполнить параметры действия "Обучить модель классификации". 
    Добавить в соответствующие поля параметров пути к папкам и файлам и выбрать метод.
    В результат добавить переменную "Результат":
  4. Перетащить на рабочую область действие "Сообщение".
  5. Заполнить параметры действия "Сообщение".
  6. Нажать на кнопку "Старт" в верхней панели.

...

Создана модель классификации, включающая в себя 2 файла: machine_model.pkl – модель машинного обучения и tfidf_model.pk – сохранение словаря, токены.

Процент точности обученной модели записан в переменную "Результат" и выведен в диалоговое окно.
Image Modified

Image Modified