Группа "Robin AI", подгруппа "Классификатор (Preferentum)"
The action classifies the text according to the given indexes and defines its class
Контекст - использует результат действия "Открыть классификатор", которое включает в себя путь до папки с классификатором.
Текст - строковое значение, которое необходимо классифицировать.
Многоклассовая классификация - используется для выбора, какое количество классов будет получено в результате.
Если значение "false", то для текста будет определяться класс с наибольшим процентом вероятности. Если "true", то будут определятся несколько классов, к которым может относиться текст.
Порог уверенности - позволяет установить разницу между первыми двумя рубриками (тематиками), при которой система сможет уверенно отнести текст к единственной рубрике. Параметр учитывается, если "Многоклассовая классификация" = false, иначе параметр игнорируется.
Если процент вхождения ≥ порога уверенности, то "Уверенный результат" = true
Если процент вхождения < порога уверенности, то "Уверенный результат" = false
Количество классов - максимальное количество классов, которое будет выведено в результирующий словарь.
Параметр учитывается, если "Многоклассовая классификация" = true, иначе параметр игнорируется.
Если в результирующей выборке в словаре классов больше, чем в "Количество классов", то выводится количество классов, указанное в параметре
Если в результирующей выборке в словаре классов меньше, чем в "Количество классов", то выводится столько классов, сколько было получено
Классы - словарь с результирующей выборкой классов, где ключ - класс, а значение - процент вероятности, т.е. ранг класса
(отображается в том же виде, что и в классификаторе).
Уверенный результат:
Если "Многоклассовая классификация" = false и "Порог уверенности" не заполнен, то "Уверенный результат" = false
Если "Многоклассовая классификация" = true, то "Уверенный результат" = false
Property | Description | Type | Filling example | Mandatory field |
---|---|---|---|---|
Parameters | ||||
Context | Classifier context for the operation of the action | Context | Open classifier.Classifier | Yes |
Text | Text that needs to be classified | String | When Wehner and colleagues performed a historical data analysis of hurricanes between 1980 and 2021, they found five storms that would fit into a Category 6 that have all occurred in the last nine years. It includes 2015’s Hurricane Patricia, which was the most powerful tropical cyclone that lashed Mexico with winds up to 215 mph. The other storms include Typhoon Haiyan in 2013, Typhoon Meranti in 2016, Typhoon Goni in 2020, and Typhoon Surigae in 2021. | Yes |
Multiclass classification | If "false", then the class with the highest probability percentage will be determined for the text. If "true", then several classes will be defined, to which the text can belong | Boolean | True | No |
Confidence threshold | A number from 1 to 100 that determines whether the classification result is accurate enough. It is used if you need to define only one class. The higher the specified number, the greater the difference between the two most likely classes should be. The parameter is taken into account if "Multiclass classification" = false | Numeric | 80 | No |
Number of classes | The maximum number of classes the action can return. If more classes were defined for the text during classification, the action will return only the specified number of classes | Numeric | 5 | No |
Results | ||||
Classes | A dictionary with classes to which the specified text can belong. The key is the class, the key value is the percentage of probability that the text will enter the class | Dictionary | ||
Confident result | If "true", the classification result is sufficiently accurate. If "false", the classification result may be inaccurate | Boolean |
Руководство по использованию системы классификации Preferentum - https://preferentum.ru/wp-content/uploads/2022/04/preferentumclass_manual.pdf.
Класс в классификаторе указан как "Рубрика", а вероятность вхождения в класс указана как "Ранг".
Алгоритм, когда "Многоклассовая классификация" = false:
Система классифицирует текст в возможные рубрики и вычисляет ранг для каждой рубрики. Сравниваются две рубрики с наибольшим классом по формуле: X*100/Y, где x - ранг первой рубрики, y - ранг второй рубрики. Полученное число сравнивается со значением параметра "Порог уверенности". Если полученное число больше или равно, то результат считается уверенным. В таком случае параметр "Уверенный результат" = true. Если полученное число меньше, то результат считается неуверенным, т.к. возможно, что наиболее вероятная рубрика определенна не точно. В таком случае параметр "Уверенный результат" = false. В обоих случаях действие возвращает словарь с одной рубрикой (которая имеет самый высокий ранг).
Алгоритм, когда "Многоклассовая классификация" = true:
Система классифицирует текст в возможные рубрики и вычисляет ранг для каждой рубрики. Все соседние рубрики сравниваются между собой по формуле: X/Y, где x - первый ранг, y - последующий ранг. Наибольшее число, полученное при сравнении, определяет какие рубрики не будут входить в результирующий словарь. Действие возвращает словарь с рубриками, которые находились выше по списку рубрики с наибольшим числом сравнения. Рубрика с наибольшим числом сравнения тоже входит в результирующий словарь.
Если параметр "Многоклассовая классификация" = false и текст классифицировался в классы с одинаковым процентом вероятности, то действие завершится ошибкой.
Если параметр "Многоклассовая классификация"=true, "Количество классов" - указано несколько классов, а текст классифицировался в классы с одинаковым процентом вероятности, то действие завершится ошибкой.
(Пример: "Количество классов" = 2. Текст классифицировался в три класса, два с одинаковым процентом вероятности = 50, а третий классифицировался с процентом вероятности = 80, действие завершится ошибкой.)
Если текст не классифицировался ни в один класс или у классификатора не имеется классов, то действие завершится ошибкой.
Классифицировать текст на основе обученной модели с определением класса с наибольшим процентом вероятности
Воспользоваться действием "Классифицировать текст".
Предусловие
Для работы действия "Открыть классификатор" необходима обученная модель классификатора.
Обучение осуществляется при помощи действия "Создать индекс".
Перенести действие "Открыть классификатор" на рабочую область.
Заполнить параметры действия "Открыть классификатор".
Указать путь к папке, которая содержит обученную модель.
Перенести действие "Классифицировать текст" на рабочую область.
Заполнить параметры действия "Классифицировать текст".
Указать контекст, полученный в действии "Открыть классификатор"
Установить значение в поле "Порог уверенности"
В поле "Текст" указать следующий текст:
4. Нажать на кнопку "Старт" в верхней панели.
Программный робот отработал успешно.
Получен словарь с классом, имеющим наибольший процент вероятности, к которому может относиться указанный текст,
а также подтверждение, что результат классификации достаточно точен ( параметр "Уверенный результат"/"Confident Result" - True).
Классифицировать текст на основе обученной модели для определения классов, к которым может относиться текст
Воспользоваться действием "Классифицировать текст".
Предусловие
Для работы действия "Открыть классификатор" необходима обученная модель классификатора.
Обучение осуществляется при помощи действия "Создать индекс".
4. Нажать на кнопку "Старт" в верхней панели.
Программный робот отработал успешно.
Получен словарь с классами, к которым может относиться указанный текст, при этом параметр "Уверенный результат"/"Confident Result" - False.
Получить результаты действия "Классифицировать текст"
Воспользоваться действиями "Получить ключи", "Получить значение по индексу" и "Получить значение".
Нажать на кнопку "Старт" в верхней панели.
Программный робот отработал успешно.
Получены следующие результаты:
Значение параметра "Многоклассовая классификация" в действии "Классифицировать текст" | Полученные значение в результате работы действия "Классифицировать текст" | ||
---|---|---|---|
Многоклассовая классификация = false | В результате получен один класс, имеющий наибольший процент вероятности, к которому может относиться указанный текст, и процент вероятности вхождения текста в класс | ||
Многоклассовая классификация = true | В результате получены классы, к которым может относиться указанный текст и процент вероятности вхождения текста в класс | ||