Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.
Комментарий: Reverted from v. 5

...

Свойство

Описание

Тип данных

Пример заполнения

Обязательное

Примечание

Параметры




Данные для обученияПуть к папке с данными для обучения модели классификации. Внутри папки содержатся подпапки, названия которых – это название класса. Внутри каждой подпапки должны быть txt-файлы с различными текстами, которые соответствуют классу.

Robin.FolderPath


Да

каждой папке папка с классом.

там

Если встретится другой формат, не обрабатываем, пропускаем.

Пример дерева объектов:

исходная папка:

Image Added

в ней классы:

Image Added

в классах:

Image Added


Image Addedresult.zip

Папка с результатом

Путь к папке, в которую будет сохранена обученная модель классификации.




Robin.FolderPath
Да

В указанной папке будет создано 2 файла: machine_model.pkl – модель машинного обучения, и tfidf_model.pk – сохранение словаря, токены.

Метод

Метод, который будет использоваться для обучения модели классификации.

Robin.String
Да

Список методов:

Выбрать наиболее подходящий – Choose the most suitable

SVC

RandomForest

GradientBoosting

AdaBoost

DecisionTree

KNeighboors

Naive Bayes


В списке при смене языка студии на английский "Выбрать наиболее подходящий" сменяется на "Choose the most suitable", остальные варианты остаются на английском.

Перезаписать

Если значение "true", и в папке с результатом уже существует файл с таким же именем и расширением, то он будет перезаписан. Если "false", файл перезаписан не будет, и действие вернет ошибку.Robin.Boolean
Нет

Файлы machine_model.pcl and tiff_model.pk должны быть уникальны в указанной папке.

Стоп-слова

Путь к txt-файлу, который содержит стоп-слова, которые не будут учитываться при обучении модели классификации. Каждое стоп-слово должно быть записано на новой строке.

Robin.FilePath
Нет

Слова, несущие мало смысла для классификации, но часто встречающиеся, напр, в письмах:

Доброе утро!

Добрый день!

С уважением,

tel:

email:

СловосочетанияПуть к txt-файлу, содержащему словосочетания, которые при обучении модели важно не разделять на отдельные слова для сохранения смысла всей фразы. Каждое словосочетание должно быть записано на новой строке.Robin.FilePath
Нет

Словосочетания нужны указания важности фразы целиком, без разделения по словам.

Например: юридическое лицо, операция по чеку, чек по операции, срочный вопрос, группа компаний, стратегия развития.

Результаты




РезультатПроцент точности обученной модели.Robin.Numeric

Тестовая и тренировочная выборки сравниваются и получается процент

Особые условия использования

...