Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

каждой папке папка с классом.

там

Если встретится другой формат, не обрабатываем, пропускаем.

Пример дерева объектов:

исходная папка:

Image Removed

в ней классы:

Image Removed

в классах:

Image Removed

Image Removedresult.zipВ указанной папке будет создано 2 файла: machine_model.pkl – модель машинного обучения, и tfidf_model.pk – сохранение словаря, токены.

Список методов:

Выбрать наиболее подходящий – Choose the most suitable

SVC

RandomForest

GradientBoosting

AdaBoost

DecisionTree

KNeighboors

Naive BayesФайлы machine_model.pcl and tiff_model.pk должны быть уникальны в указанной папке.Слова, несущие мало смысла для классификации, но часто встречающиеся, напр, в письмах:Словосочетания нужны указания важности фразы целиком, без разделения по словам.

Свойство

Описание

Тип данных

Пример заполнения

Обязательное

Примечание

Параметры



Данные для обученияПуть к папке с данными для обучения модели классификации. Внутри папки содержатся подпапки, названия которых – это название класса. Внутри каждой подпапки должны быть txt-файлы с различными текстами, которые соответствуют классу.

Robin.FolderPath


Да

Папка с результатом

Путь к папке, в которую будет сохранена обученная модель классификации.




Robin.FolderPath
Да
Метод

Метод, который будет использоваться для обучения модели классификации.

Robin.String
Да

В списке при смене языка студии на английский "Выбрать наиболее подходящий" сменяется на "Choose the most suitable", остальные варианты остаются на английском.

Перезаписать

Если значение "true", и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. Если "false", файл перезаписан не будет, и действие вернет ошибку.Robin.Boolean
Нет

Стоп-слова

Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке.

Robin.FilePath
Нет

Доброе утро!

Добрый день!

С уважением,

tel:

email:

Словосочетания
Путь к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строке.Robin.FilePath
Нет

Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.

Результаты



РезультатПроцент точности обученной модели.Robin.NumericТестовая и тренировочная выборки сравниваются и получается процент

Особые условия использования

...