Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

Классифицировать текст Версия 1 (python)

Группа "Robin AI", подгруппа "Машинное обучениеКлассификатор (ROBIN)"

...

Описание

Действие определяет класс, к которому относится текст, на основе обученной модели классификации, т.е. показывает вероятность отношения текста к определенному классу, соответствующему рубрике на основе обученного метода классификации.

Целью выполнения действия является определение той рубрики, к которой ближе всего относится текст, то есть должна быть определена рубрика с наибольшим процентом точности, чтобы позволить принять решение о дальнейших действиях с этим текстом. 

Image Removed

Результат действия представляет собой словарь, где ключ - название класса, а значение - процент вхождения в данный класс. Сортировка в словаре осуществляется по проценту вхождения в класс, на первом месте – класс с наибольшим процентом.

Иконка

Image Added

Параметры

...

Входные параметры

  • Текст для классификации

...

  •  – текст, класс которого необходимо определить. Язык может быть любой.
    Если будет язык отличный от языка обучающей выборки, то процент определения класса будет близким к нулю.
  • Обученная модель

...

  •  – путь к папке, которая содержит обученную модель классификации.
    В папке должно содержаться два файла: machine_model.pkl и tfidf_model.pk.

...


  • Отсутствие какого-то файла или изменение имени папки на другое может привести к ошибке.

Выходные параметры

  • Результат  

...

  • – словарь, где ключ - название класса, а значение - процент вхождения в данный класс.

...

  •  
    Сортировка в словаре производится по проценту вхождения в класс.

Настройки

Свойство

Описание

Тип

Пример заполнения

Обязательность заполнения поля

Параметры

Текст для классификации

Текст

для классификацииRobin.String

, класс которого необходимо определить

Строка

Запрос в бухгалтерию - Акт сверки за 1 квартал 2023 г.

Добрый день!

Пришлите, пожалуйста, акт сверки за 1 квартал 2023 г.
Наш ИНН 7811179707

Заранее спасибо!

Да

Обученная модель

Путь к папке, которая содержит обученную модель

.Robin.FolderPath

классификации

Путь к папке

C:

\doc\img

\Users\123\OneDrive\Рабочий стол\Модель классификации

Да

Результаты

Результат

Словарь, где

Ключ

ключ -

рубрика

название класса, а

Значение

значение - процент вхождения в

данную рубрику

данный класс. Сортировка в словаре по проценту вхождения в

рубрику.Robin.Dictionary

класс

Словарь



Особые условия использования 

1.В папке, которая содержит обученную модель, должно содержаться два файла.  Файлы предоставляются заказчику по требованию.  Данные файлы представляют из себя запакованную модель машинного обучения. 

2.Если какого-то файла нет/другое название, то это приведет к ошибке при работе действия. 

3.Робот выдаст ошибку, если:

  • в поле "Обученная модель" указан неверный путь/не содержит обученную модель (один или два файла изменены);
  • в поле "Текст для классификации" указана пустая строка или действие не смогло определить класс.

...

  1. Полученный в результате работы действия словарь создается с полным набором ключей – классов, которые имеются в модели классификации.
  2. Если классифицирующийся текст не имеет процента вхождения в какой-либо класс, то ключ соответствующего класса в словаре будет иметь значение, равное 0.   
  1. Робот не выдаст ошибку, если

...

  1. подан текст не на языке обученной модели, при этом % совпадения с классом будет небольшой. 

...

  1. Существующую обученную модель нельзя "дообучать", при необходимости добавления классов

...

  1. необходимо заново запустить действие по обучению

...

  1. модели.

...

  1. Для сведения

...

  1. – обученная модель на 20000 записей классифицирует текст за 2-3 минуты.

Дополнительная информация о теории классификации текста: 

https://vas3k.blog/blog/machine_learning/#klassifikatsiia

https://www.edureka.co/blog/classification-in-machine-learning/

Пример использования

Задача

Классифицировать Необходимо классифицировать текст на основе обученной модели и добавить наименования найденных классов и процент вхождения в данные классы в табличный документ.

Решение

Воспользоваться действием "Классифицировать текст". 

Реализация

Предусловие

Для работы действия нужна обученная модель классификации, которая создается при помощи действия "Обучить модель классификации".
В папке с моделью должны содержаться два файла: machine_model.pkl и tfidf_model.pk.

  1. Перетащить на рабочую область действие "Классифицировать текст"Перенести действие "Классифицировать текст" на рабочую область
    Image Modified

  2. Заполнить параметры действия "Классифицировать текст". 
    1. В поле "Текст для классификации" указать следующий текст: 

...

    1. Image Modified

...


    1. Указать путь к папке, которая содержит обученную модель. 
      Image Modified

...

4. Нажать на кнопку "Старт" в верхней панели.  

Результат 

Программный робот отработал успешно. Получен словарь , где Ключ - рубрика, а Значение - процент вхождения в данную рубрику. Сортировка в словаре по проценту вхождения в рубрику.

Image Removed

В результате получился словарь с названием категории и с точностью принадлежности к данной категории.  

Image Removed

При необходимости получения рубрики к которой текст относится в наибольшей степени необходимо воспользоваться действием "Получить коллекцию ключей", потому что в значениях % указаны, а сами рубрики-категории в ключах. Далее, нужно получить коллекцию ключей и нулевой элемент этой коллекции - это та рубрика, к которой скорее всего относится текст (действие "Получить значение по индексу"). 



  1. Перетащить на рабочую область действие "Получить ключи".
    Image Added

  2. Заполнить параметры действия "Получить ключи".
    В поле "Словарь" добавить результат действия "Классифицировать текст".
    Image Added

  3. Перетащить на рабочую область действие "Получить значения".
    Image Added

  4. Заполнить параметры действия "Получить значения".
    В поле "Словарь" добавить результат действия "Классифицировать текст".
    Image Added

  5. Перетащить на рабочую область действие "Открыть".
    Image Added

  6. Заполнить параметры действия "Открыть".
    В поле "Путь к файлу" указать путь до имеющегося пустого файла Excel.
    Image Added

  7. Перетащить на рабочую область действия "Установить значения столбца".
    Image Added

  8. Заполнить параметры действий "Установить значения столбца".
    В первое действие в поле "Значение ячеек" добавить результат действия "Получить ключи" – названия классов,
    а во второе – результат действия "Получить ключи" – процент вхождения в данный класс.

    Image AddedImage Added

  9. Нажать на кнопку "Старт" в верхней панели.

Результат

Программный робот отработал успешно. 
В результате получен словарь с названиями классов и значениями – процентами вхождения в классы.
Полученные значения добавлены в табличный документ.

Image Added

Image AddedImage Removed