Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Классифицировать текст

...

 Версия 1 (Python)

Группа "Robin AI", подгруппа "Машинное обучение"Классификатор (ROBIN)"

...

Описание

Действие определяет класс, к которому относится текст, на основе обученной модели классификации, т.е. показывает вероятность вхождения текста в рубрику на основе обученного метода классификации.

Целью выполнения действия является получение той рубрики, к которой ближе всего относится текст (то есть должна быть рубрика с наибольшим процентом точности), чтобы потом предпринять что-то, что нужно делать с текстом из этой рубрики. 

Иконка

Image Removed

Параметры

Входные параметры:

  • Текст для классификации   Текст, класс которого необходимо определить. Язык может быть любой. Если будет язык отличный от языка обучающей выборки, то процент определения класса будет близким к нулю.
  • Обученная модель                Путь к папке, которая содержит обученную модель классификации. В папке должно содержаться два файла: machine_model.pkl и tfidf_model.pk Отсутствие какого-то файла или изменение имени папки на другое может привести к ошибке.

Выходные параметры: 

...

Результат действия представляет собой словарь, где ключ - название класса, а значение - процент вхождения в данный класс.

...

 
Сортировка в словаре

...

осуществляется по проценту вхождения в класс, на первом месте – класс с наибольшим процентом.

...

Иконка действия

Image Added

Параметры и их настройка

...

для классификацииRobin.String.Robin.FolderPath\doc\img

Свойство

Описание

Тип

Пример заполнения

Обязательность заполнения поля

Параметры

Текст для классификации

Текст

, класс которого необходимо определить

Строка

Запрос в бухгалтерию - Акт сверки за 1 квартал 2023 г.

Добрый день!

Пришлите, пожалуйста, акт сверки за 1 квартал 2023 г.
Наш ИНН 7811179707

Заранее спасибо!

Да

Обученная модель

Путь к папке, которая содержит обученную модель

классификации

Путь к папке

C:

\Users\123\OneDrive\Рабочий стол\Модель классификации

Да

Результаты

Результат

Словарь, где Ключ ключ - рубриканазвание класса, а Значение значение - процент вхождения в данную рубрикуданный класс. Сортировка в словаре по проценту вхождения в рубрику.класс

СловарьRobin.Dictionary



Особые условия использования 

1.В папке должно содержаться два файла.  Файлы предоставляются заказчику по требованию.  Данные файлы представляют из себя запакованную модель машинного обучения. 

Image Removed

2.Если какого-то файла нет/другое название, то это приведет к ошибке при работе действия. 

3.Робот вернет ошибку, если:

  • в поле "Обученная модель" указан неверный путь/не содержит обученную модель (один или два файла изменены);
  • в поле "Текст для классификации" указана пустая строка или действие не смогло определить класс.
  1. Робот не вернет ошибку, если:
  1. Полученный в результате работы действия словарь создается с полным набором ключей – классов, которые имеются в модели классификации.
  2. Если классифицирующийся текст не имеет процента вхождения в какой-либо класс, то ключ соответствующего класса в словаре будет иметь значение, равное 0.   
  3. Робот не выдаст ошибку, если подан текст не на языке обученной модели

...

  1. , при этом % совпадения с классом будет небольшой. 
  2. Существующую обученную модель нельзя "дообучать", при необходимости добавления классов необходимо заново запустить действие по обучению модели.
  3. Для сведения – обученная модель на 20000 записей классифицирует текст за 2-3 минуты.

Дополнительная информация о теории классификации текста: 

https://vas3k.blog/blog/machine_learning/#klassifikatsiia

https://www.edureka.co/blog/classification-in-machine-learning/

Пример использования

Задача

Необходимо классифицировать : классифицировать текст на основе обученной модели и добавить наименования найденных классов и процент вхождения в данные классы в табличный документ.

Решение

Воспользоваться Решение: воспользоваться действием "Классифицировать текст". 

Реализация

Предусловие

Для работы действия нужна обученная модель классификации, которая создается при помощи действия "Обучить модель классификации".
В папке с моделью должны содержаться два файла:
machine_model.pkl и tfidf_model.pk.

...

  1. Перетащить на рабочую область действие Перенести действие "Классифицировать текст" на рабочую область
    Image AddedImage Removed
  2. Заполнить параметры действия "Классифицировать текст". 
    1. В поле "Текст для классификации" указать следующий текст: 

          Image Removed

    1. Image Added
    1. Указать путь к папке, которая содержит обученную модель. 

...

Image Removed

...


    1. Image Added
  1. Перетащить на рабочую область действие "Получить ключи".
    Image Added
  2. Заполнить параметры действия "Получить ключи".
    В поле "Словарь" добавить результат действия "Классифицировать текст".
    Image Added
  3. Перетащить на рабочую область действие "Получить значения".
    Image Added
  4. Заполнить параметры действия "Получить значения".
    В поле "Словарь" добавить результат действия "Классифицировать текст".
    Image Added
  5. Перетащить на рабочую область действие "Открыть".
    Image Added
  6. Заполнить параметры действия "Открыть".
    В поле "Путь к файлу" указать путь до имеющегося пустого файла Excel.
    Image Added
  7. Перетащить на рабочую область действия "Установить значения столбца".
    Image Added
  8. Заполнить параметры действий "Установить значения столбца".
    В первое действие в поле "Значение ячеек" добавить результат действия "Получить ключи" – названия классов,
    а во второе – результат действия "Получить ключи" – процент вхождения в данный класс.

    Image AddedImage Added
  9. Нажать на кнопку "Старт" в верхней панели.

...

Результат

...

Программный робот отработал успешно. Получен словарь , где Ключ - рубрика, а Значение - процент вхождения в данную рубрику. Сортировка в словаре по проценту вхождения в рубрику.Image Removed 
В результате получился получен словарь с названием категории и с точностью принадлежности к данной категории.  

Image Removed

При необходимости получения рубрики к которой текст относится в наибольшей степени необходимо воспользоваться действием "Получить коллекцию ключей", потому что в значениях % указаны, а сами рубрики-категории в ключах. Далее, нужно получить коллекцию ключей и нулевой элемент этой коллекции - это та рубрика, к которой скорее всего относится текст (действие "Получить значение по индексу"). 

названиями классов и значениями – процентами вхождения в классы.
Полученные значения добавлены в табличный документ.

Image Added

Image AddedImage Removed