Проверить документ Версия 1 (Net)

Группа "Robin AI", подгруппа "Проверка документов"


Описание

Действие через библиотеку Preferentum проверяет документ по указанному правилу. Правило - это набор проверок, которые должно выполнить действие с указанным документом. Например, правило "Даты" проверяет, соответствуют ли даты в документе указанному шаблону.

Если действие обнаружило то, что не соответствует выбранному правилу, то возвращает список таких замечаний и исходный документ с комментариями об этих замечаниях. 

Иконка действия

Параметры и их настройка

Свойство

Описание

Тип

Пример заполнения

Обязательность заполнения поля

Параметры

Документ

Путь до файла документа, который будет проверяться. Допустимые форматы: doc, docx, xls, xlsx, csv, ppt, pptx, txt, rtf, pdf, html, odf, odt, ods, wps, wpd, xml

Путь к файлу

file.doc

Да

Правило

Правило, по которому будет проверяться указанный документ. Если указано "Пользовательские параметры", то необходимо заполнить поле "Пользовательские параметры"

Строка

Возможные значения:

  • Особые комбинации
  • Даты
  • Деньги
  • Повторы
  • География
  • Персоны и организации
  • Структура
  • Орфография
  • Пользовательские параметры
Да
Пользовательские параметрыПуть до cfg-файла, в котором записаны персональные параметры для правила. В файле можно указать только одно из поддерживаемых правил. Файл учитывается, только если в поле "Правило" выбрано "Пользовательские параметры"Путь к файлуfile.cfgНет
Путь до папкиПуть до папки, в которой будет создан новый файл, содержащий исходный документ с замечаниями, полученными при его проверкеПуть к папке
Да
Имя файлаИмя файла (без расширения), в который будет записан исходный документ с замечаниями, полученными при его проверкеСтрокаРезультатДа
ПерезаписатьЕсли значение «true», и в указанной папке существует файл с таким же именем и расширением, то новый файл его перезапишет. Если «false», файл перезаписан не будет и действие вернет ошибкуЛогическийДаНет
Тайм-аут, мсПредельное время ожидания результата проверки. Указывается в миллисекундахЧисло10000Нет
Результаты

Документ с замечаниями

Путь до файла, содержащего исходный документ с замечаниями, полученными при его проверке. Если формат исходного документа - "docx", будет создан файл "docx". Если формат - "xlsx", будет создан файл "xlsx". Если у исходного документа иной формат, то будет создан файл "html"

Путь к файлу



ЗамечанияТаблица со списком замечаний, полученных при проверке документа. Первый столбец - начало диапазона текста, к которому относится замечание. Второй столбец - конец диапазона. Третий столбец - описание замечанияТаблица

Особые условия использования 

1) Примеры документов с добавленными замечаниями: result.htmlrs.xlsxres.docx

2) Если в параметре "Документ" указан файл с расширением docx или xlsx версии 2003, то файл с замечаниями будет создан с расширением html.

3) При проверке документов действие может оставить замечание разного уровня - "Предупреждение", "Ошибка", "Информация". Уровень замечания можно увидеть в комментариях, которые действие оставляет в итоговом файле с замечаниями.

4) В результат "Замечания" сохраняется таблица со столбцами:

  • "Начало диапазона". В нем указан порядковый номер символа, с которого начинается диапазон текста, к которому относится замечание.

  • "Конец диапазона". В нем указан порядковый номер символа, на котором заканчивается диапазон текста, к которому относится замечание.

  • Описание отличия". В нем указано описание замечания.

Пример:

Начало диапазонаКонец диапазонаОписание отличия
1378Возможно, имелось ввиду "приказываю".
525543Слово "ЧОРНОЕ" содержит ошибку, либо это несловарное слово.


5) Если замечаний в документе нет, то создается файл без них (т.е. копия содержимого исходного документа). Действие вернет путь до этого файла и пустую таблицу с замечаниями.

6) У правил, по которым проверяется документ, есть различные параметры.

Если выбрать любое правило, кроме "Пользовательские параметры", то будут использованы те параметры выбранного правила, которые установлены в действии по умолчанию. Например, для правила "Даты" по умолчанию настроена проверка дат в основном тексте документа и в ссылках на нормативно-правовые акты - даты должны быть указаны в формате "D month YYYY года" и "DD.MM.YYYY", соответственно. Но в целом у правила "Даты" существуют и другие параметры и их значения.

Если нужно применить правило с другими параметрами, выберите в действии в поле "Правило" значение "Пользовательские параметры" и укажите в поле "Пользовательские параметры" путь к cfg-файлу, содержащему нужные параметры для правила.

Какие параметры для правил используются в действии по умолчанию и какие еще параметры у них могут быть, см. ниже.

7) В файле с пользовательскими параметрами можно указать параметры:

  • только допустимого правила - "Особые комбинации", "Даты", "Деньги", "Повторы", "География", "Персоны и организации", "Структура" или "Орфография".
  • только для одного правила. Например, нельзя указать параметры и для правила "Даты" и для правила "Повторы". 

8) Действие может выполнить проверку только по одному из правил. Поэтому если нужно проверить документ по нескольким правилам, добавьте на схему робота несколько действий "Проверить документ" и укажите в них один и тот же исходный файл, но разные правила.

Правила проверки документа

  • Особые комбинации

Правило, которое проверяет, есть ли в документе указанные слова или фразы.

С помощью этого правила данного можно, например, выявлять типовые фрагменты текста, не рекомендованные к употреблению в текстах документов.

Пример cfg-файла для данного правила: Пользовательские параметры (особые комбинации).cfg

Параметры правилаОписаниеПример заполнения в cfg-файлеЗначение параметра, которые действие использует по умолчанию для этого правила
mustbe

Определяет тип проверки:

  • "Не должны быть в тексте". При этом типе вернется замечание, если в документе найдены указанные комбинации текста. Если нужно использовать этот тип проверки, то в cfg-файле укажите параметр "mustbe" со значением "false".
    На каждое найденное совпадение добавляется отдельное замечание. Например, если нужно искать слово "Акт", а в документе оно встречается 3 раза, значит действие вернет 3 замечания.
    В описании замечания, добавленного для найденной комбинации, будет:
    • текст "Недопустимая комбинация: '<текст, найденный в документе>'", если в правиле не заполнен параметр "warn" и у данной комбинации нет атрибута "Warn".
    • текст из атрибута "Warn", если он указан в правиле для данной комбинации.
    • текст из параметра "warn", если он указан в правиле и при этом у данной комбинации не указан атрибут "Warn".
  • "Должны быть в тексте". При этом типе вернется замечание, если в текст нет ни одной из указанных комбинаций текста. Если нужно использовать этот тип проверки, то в cfg-файле укажите параметр "mustbe" со значением "true".
    При таком типе проверки всегда будет только одно замечание. В описании замечания будет указан текст из атрибута "Warn" или параметра "warn", если они заполнены в правиле. Если заполнен и параметр, и атрибут, то в замечании будет только текст атрибута. Если атрибут "Warn" заполнен у нескольких комбинаций, то в замечании будут перечислены значения из всех "Warn", разделенные точкой. Если нет ни параметра, ни атрибута, то текст замечания - "Для правила 'Особые комбинации' ни одна из N комбинаций не встречается в документе.", где N - число комбинаций, указанных в правиле.
<mustbe>true</mustbe>

false

warn

Текст, который будет использован как описание для всех замечаний, выявленных действием.

Если у комбинации, к которой относится замечание, есть атрибут "Warn", то в замечании будет текст из этого атрибута, а не из общего параметра "warn".

Если этот параметр не указан для правила, то текст замечания будет зависеть от выбранного типа проверки и наличия в комбинациях атрибута "Warn" (см. описание параметра "mustbe").

<warn>Ошибка</warn>по умолчанию действие не использует этот параметр
item

Комбинация (текст), которую нужно найти в документе. Комбинацией может быть как одно слово, так и целая фраза.

Можно указать сразу несколько искомых комбинаций (каждая комбинация записывается в отдельном "item")

Параметр имеет 3 атрибута:

  • Val. Обязательный. Значение атрибута - это искомый текст.
  • Case. Необязательный. Если в документе надо искать строгое совпадение с текстом из "Val", то добавьте этот атрибут со значением "true".
    Если допустим поиск с нестрогим равенством, учитывающий некоторые погрешности или преобразования данных, тогда просто не добавляйте этот атрибут в параметр "Item". Например, в "Val" указано слово "Акт", при нестрогом равенстве совпадением будет считаться и слово "актов".
  • Warn . Необязательный. В значении атрибута указывается текст, который будет использован как описание замечания об этой комбинации. Если атрибут не указывать, то в замечании будет указано "Недопустимая комбинация: '<текст, найденный в документе>'"

Пример с несколькими комбинациями в файле:

<item Val="Акт" Case="true" Warn="Ошибка" />
<item Val="требования Положения" />
<item Val="Назначить" Case="true" />

<item Val="федеральный" />
<item Val="выполнение задачи" Warn="внимание!" />


  • Даты

Правило, которое проверяет, соответствуют ли даты в документе требуемому шаблону.

Такое правило позволяет проверить корректность написания дат в тексте документа в соответствии с заданными в компании правилами и регламентами.

Пример cfg-файла для данного правила: Пользовательские параметры (Даты).cfg

Параметры правилаОписаниеПример заполнения в cfg-файлеЗначение параметра, которые действие использует по умолчанию для этого правила
datehead

Параметр для проверки дат в заголовке документа. В значении параметра необходимо указывать шаблон, по которому будут проверяться даты.

Для действия заголовок документа - это, как правило, первая строка документа или часть текста, которая четко обозначает тему или наименование документа.

Если не нужно проверять даты в заголовке, тогда не добавляйте этот параметр в cfg-файл.

<datehead>DD.MM.YYYY</datehead>
по умолчанию действие не использует этот параметр
datetext

Параметр для проверки дат в основном тексте документа. В значении параметра необходимо указывать шаблон, по которому будут проверяться даты.

Для действия основной текст - это часть, которая содержит основное содержание документа, исключая заголовки, таблицы, графики, подписи и другие элементы, не относящиеся напрямую к содержанию.

Если не нужно проверять даты в основном тексте, тогда не добавляйте этот параметр в cfg-файл.

<datetext>DD.MM.YYYY</datetext>D month YYYY года
datedocref

Параметр для проверки дат в ссылках на нормативно-правовые акты (НПА). В значении параметра необходимо указывать шаблон, по которому будут проверяться даты.

Действие определяет ссылки на НПА как текст, в котором содержится упоминание законов, постановлений и других юридических документов.

Если не нужно проверять даты в ссылках на НПА, тогда не добавляйте этот параметр в cfg-файл.

<datedocref>DD.MM.YYYY</datedocref>DD.MM.YYYY
datetail

Параметр для проверки дат в подписи документа. В значении параметра необходимо указывать шаблон, по которому будут проверяться даты.

Для действия подпись - это, как правило, финальная часть документа, где указано имя, должность и/или печать подписанта.

Если не нужно проверять даты в подписи, тогда не добавляйте этот параметр в cfg-файл.

<datetail>DD.MM.YYYY</datetail>по умолчанию действие не использует этот параметр
datenbsp

Параметр для проверки наличия неразрывных пробелов в дате. Используется для предотвращения разрыва между словами, которые должны восприниматься как единое целое. Например, "15 июля 1996" - состоит из нескольких слов, но все они составляют одну дату.

Если все пробелы между частями даты должны быть неразрывными, то укажите в значении параметра "true".

Если значение параметра - "true", а в документе есть дата с обычными пробелами, которая при этом в целом не соответствует указанному шаблону, то в замечании будет указано только о несоответствии даты шаблону и какой вариант даты будет правильным. При этом правильный вариант даты будет сразу указан с неразрывными пробелами. Но отдельного замечания про неразрывные пробелы уже не будет.

Если не нужно проверять пробелы в датах, тогда укажите у параметра значение "false".

<datenbsp>true</datenbsp>

false

 

  • Деньги

Правило для проверки корректности денежных сумм, указанных в документе. Под корректностью подразумевается, например, использование не более одной валюты в документе, наличие сумм прописью и цифрами, правильность расчета суммы НДС по заданным процентам.

Пример cfg-файла для данного правила: Пользовательские параметры (Деньги).cfg

Параметры правилаОписаниеПример заполнения в cfg-файлеЗначение параметра, которые действие использует по умолчанию для этого правила
CheckAmountWordSpelling

Если значение параметра - "true", то все денежные суммы  должны иметь рядом с собой их текстовое написание в скобках. Например, если в документе указано "60000 руб" то действие оставит замечание, верным вариантом было бы "60000 руб (Шестьдесят тысяч рублей)" или "60000 руб (Шестьдесят тысяч руб)".

При этом также будет проверено, что обе указанные суммы совпадают. Например, будет оставлено замечание, если указано "70000 руб (Шестьдесят тысяч рублей)".

Если такая проверка не требуется, укажите в параметре "false". 

<CheckAmountWordSpelling>true</CheckAmountWordSpelling>true
HighlightAmounts

Если значение параметра - "true", то для всех валют в тексте документа будет оставлен комментарий об их корректном формате. 

Корректным форматом валюты для этого параметра считается буквенное обозначение валюты по стандарту ISO 4217. Например, должно быть не "руб", а "RUB".  

Также в комментарии денежная сумма, к которой относится валюта, будет записана с точками, разделяющими тысячи. Например, в документе указано "20000000 руб" - на это будет оставлен комментарий с текстом "20.000.000 RUB"

Если проверять формат валюты не нужно, укажите в параметре "false". 

<HighlightAmounts>false</HighlightAmounts>true
OneCurrency

Если значение параметра - "true", то все денежные суммы в документе должны быть указаны в одной валюте. Целевой валютой для документа будет считаться та, которая встретится первой в его тексте. Все валюты, указанные после нее, должны будут с первой встреченной валютой.

При этом формат, в котором указана валюта, данным параметром игнорируется. Например, если указано "35 рублей" и "35 RUB", действие не вернет замечание для этих сумм, т.к. в целом они указаны в одной валюте. За проверку формата отвечает параметр "HighlightAmounts"

Если допустимо наличие разных валют, укажите в параметре "false". 

<OneCurrency>false</OneCurrency>true
NdsMustbeMoney

Если значение параметра - "true", то значение НДС в тексте должно быть указано в денежном выражении. Например, будет замечание, если указано "НДС = 13%"; верным вариантом было бы "НДС = 1000 руб".

Параметр учитывается, только если значение параметра "CoefNDS" > 0.

<NdsMustbeMoney>true</NdsMustbeMoney>true
CoefNDS

Параметр для проверки корректности суммы НДС. В качестве его значения необходим указать процент НДС.

Действие проверяет корректность суммы на основе указанного в правиле процента и стоимости товара/услуги, указанной в документе.

Если в документе не найдена стоимость товара/услуги, которая относится к указанной сумме НДС, то такая сумма НДС игнорируется и не проверяется.

Если параметр не указан или его значение = 0, то сумма НДС не будет проверяться.

<CoefNDS>18</CoefNDS>

18


  • Повторы

Правило, которое проверяет наличие повторяющихся фрагментов текста в документе.

Пример cfg-файла для данного правила: Пользовательские параметры (Повторы).cfg

Параметры правилаОписаниеПример заполнения в cfg-файлеЗначение параметра, которые действие использует по умолчанию для этого правила
minlength

Параметр устанавливает минимальный размер фрагмента текста для обработки, чтобы избежать разбивки на слишком маленькие части.

Задается в символах.

<minlength>200</minlength>300
ignoretable

Если значение параметра - "true", то текст внутри таблиц будет игнорироваться при поиске повторов.

Если значение "false", то текст внутри таблиц будет учитываться при поиске повторов.

<ignoretable>true</ignoretable>true
NoInfoAnnots

Если значение данного параметра - "true", то замечаниям будет присвоен уровень выше "Информации". Чаще всего для этого правила это будет "Предупреждение".
Если значение "false", то у всех замечаний будет уровень "Информация".

<NoInfoAnnots>true</NoInfoAnnots>

по умолчанию действие не использует этот параметр


  • География

Правило, которое проверяет, верно ли указаны названия географических объектов. 

Пример cfg-файла для данного правила: Пользовательские параметры (География).cfg

Параметры правилаОписаниеПример заполнения в cfg-файлеЗначение параметра, которые действие использует по умолчанию для этого правила
createlist

Если значение параметра - "true", то будут оставлены замечания для всех географических объектов, найденных в документе. Причем будут определены и отмечены в том числе и те географические объекты, которые не указаны в правиле (их нет в параметре "geo").

У всех таких замечаний будет уровень "Информация".

Географические объекты, которых нет в правиле, будут определены по контексту, ключевым словам или географическим признакам в данных.

Если не нужно выделять все географические объекты, укажите в параметре "false".

<createlist>true</createlist>false
commentabsent

Если значение параметра - "true", то для всех географических объектов в документе, которые не указаны в правиле в параметре "geo", будет оставлено замечание уровня "Предупреждение". 

Такие географические объекты будут определены по контексту, ключевым словам или географическим признакам в данных.

Если такие замечания добавлять не надо, укажите в параметре "false".

<commentabsent>true</commentabsent>false
ignorecities

Если значение параметра - "true", то будут проверены только страны и регионы, а населённые пункты (например, города) будут проигнорированы.

Если нужно учитывать в том числе населенные пункты, укажите в параметре "false".

<ignorecities>false</ignorecities>false
ignorecitytype

Если значение параметра - "true", то тип населённого пункта не будет проверяться. Будут проверяться только названия.  

Если тип населенного пункта также надо учитывать, укажите в параметре "false".

<ignorecitytype>false</ignorecitytype>false
geo

Параметр для указания корректного варианта написания географического названия.

Можно указать сразу несколько географических объектов (каждый объект записывается в отдельном "geo").

При проверке будет учитываться, что в тексте документа объект может иметь склонение. Но в этом параметре будет достаточно указать объект в именительном падеже.

Параметр имеет 2 дочерних параметра:

  • name. Обязательный. Значение - это название географического объекта (например, "Япония"). При необходимости уточняется вид объекта (республика, область и т.п.), если в документе может встретиться вариант указания объекта вместе с его видом (например, "Алтайский край" или "Княжество Монако").
  • short. Необязательный. Значение - это краткий вариант названия географического объекта, если такое имеется. Заполняется, чтобы при проверке не появлялось замечании при употреблении в документе краткого варианта объекта.
    Например, в "name" может быть указано полное название государства "Чешская Республика", но если в документе допустимо использовать краткий вариант, то в этом параметре можно дополнительно указать "Чехия".

<geo>
    <name>Республика Адыгея</name>
    <short>Адыгея</short>
</geo>
<geo>
    <name>Республика Алтай</name>
</geo>

...

Список с географическими объектами, который используется в действии по умолчанию, можно посмотреть в файле GeoRule.cfg.


  • Персоны и организации

Правило, которое проверяет, верно ли указаны персоны и организации в документе. Например, можно проверять, что для упоминающего в документе ФИО корректно указана должность. 

Пример cfg-файла для данного правила: Пользовательские параметры (Персоны и организации).cfg

Параметры правилаОписаниеПример заполнения в cfg-файлеЗначение параметра, которые действие использует по умолчанию для этого правила
persnbsp

Если значение параметра - "true", то инициалы от фамилии должны отделяться неразрывным пробелом. Если не нужно проверять пробелы, тогда укажите у параметра значение "false".

Параметр работает, только для фамилии и инициалов. Если ФИО указано полностью (например, Иванов Иван Иванович), то пробелы между его фамилией, именем и отчеством не проверяются.

<persnbsp>false</persnbsp>true
perslist

Если значение параметра - "true", то будут оставлены замечания обо всех персонах, найденных в документе. Причем будут определены и отмечены в том числе и те персоны, которые не указаны в правиле (их нет в параметре "person").

У всех таких замечаний будет уровень "Информация".

Если не нужно выделять все персоны, укажите в параметре "false".

<perslist>false</perslist>true
persnotinlist

Если значение параметра - "true", то для всех персон в документе,  которые не указаны в правиле в параметре "person", будет оставлено замечание уровня "Предупреждение". 

Если такие замечания добавлять не надо, укажите в параметре "false".

<persnotinlist>false</persnotinlist>false
perssurplace

Параметр, который проверяет, что фамилия указана перед инициалами (И.О.) или после них. Имеет 3 варианта значения:

  • "no" - расположение инициалов проверять не надо.
  • "start" - инициалы должны быть после фамилии (например, Иванов И.И.)
  • "end" - инициалы должны быть до фамилии (например, И.И. Иванов).

Если указано значение "start" или "end", а в документе ФИО указано полностью (например, Иванов Иван Иванович), то не будет замечания о том, что нужно имя и отчество указать инициалами, такое данный параметр не проверяет. Но будет проверено, указаны ли имя и отчество после или до фамилии. Например, если в параметре указано "start", а в документе - "Иван Иванович Иванов", то будет добавлено замечание о том, что должно быть "Иванов Иван Иванович".

<perssurplace>no</perssurplace>по умолчанию действие не использует этот параметр
orgnbsp

Если значение параметра - "true", то слова в кратком названии организаций должны отделяться неразрывным пробелом. Если не нужно проверять пробелы, тогда укажите у параметра значение "false".

Параметр работает, только для кратких названий (например, МВД России), которые указаны в правиле в параметре "org". Если указано полное название организации, (например, Министерство внутренних дел Российской Федерации), то пробелы между словами в ее этом названии не проверяются.

<orgnbsp>false</orgnbsp>

true

orgslist

Если значение параметра - "true", то будут оставлены замечания обо всех организациях, найденных в документе. Причем будут определены и отмечены в том числе и те организации, которые не указаны в правиле (их нет в параметре "org").

У всех таких замечаний будет уровень "Информация".

Если не нужно выделять все организации, укажите в параметре "false".

<orgslist>false</orgslist>

true

orgssnotinlist

Если значение параметра - "true", то для всех организаций в документе, которые не указаны в правиле в параметре "org", будет оставлено замечание уровня "Предупреждение". 

Если такие замечания добавлять не надо, укажите в параметре "false".

<orgssnotinlist>false</orgssnotinlist>

false

orgignoresuff

Список суффиксов, разделённый точкой с запятой. Если за организацией следует такой суффикс, то организация игнорируется при проверках.

Суффиксом может быть и целое отдельное слово или фраза.

<orgignoresuff>, ГУ (У);по республикам</orgignoresuff>

, ГУ (У);по республикам
org

Параметр для указания корректного варианта написания организации, которая может встретиться в тексте.

Можно указать сразу несколько организаций (каждая записывается в отдельном "org").

При проверке будет учитываться, что в тексте документа слова из названия организации могут иметь склонение. Но в этом параметре будет достаточно указать название в именительном падеже.

Параметр имеет 2 дочерних параметра:

  • name. Обязательный. Значение - это полное название организации (например, "Министерство здравоохранения и социального развития Российской Федерации").
  • short. Необязательный. Значение - это краткий вариант названия организации (например, "Минздравсоцразвития России"). Заполняется, чтобы при проверке не появлялось замечании при употреблении в документе краткого варианта организации.

<org>
  <name>Управление делами Президента Российской Федерации</name>
</org>
<org>
  <name>Министерство здравоохранения и социального развития Российской Федерации</name>
  <short>Минздравсоцразвития России</short>
</org>

Списки персон и организаций, которые используются в действии по умолчанию, можно посмотреть в файле OrgPersonRule.cfg.

person

Параметр для указания корректного написания ФИО и должности персон, которые могут встретиться в тексте. Действие проверяет, что:

  • рядом с фамилией в документе указаны верные имя и отчество (могут быть написаны полностью или в виде инициалов). Например, в правиле есть персона "Иванов Иван Иванович", а в документе встречается "Иванов П.П" и "Петров Иван Иванович" - действие оставит замечание об "Иванов П.П.", но "Петрова" пропустит, т.к. в правиле нет персоны с такой фамилией.
  • рядом с указанным ФИО указана корректная должность. Например, в правиле для персоны "Иванов Иван Иванович" указана должность "заместитель Министра", а в документе указано "... заместитель Иванов И.И. ..." - действие оставит замечание, что неверно указана должность у этой персоны.

Можно указать сразу несколько персон (каждая записывается в отдельном "person").

При проверке будет учитываться, что части ФИО и слова из названия должности в тексте документа могут иметь склонение. Но в этом параметре будет достаточно указать ФИО и должность в именительном падеже.

Параметр имеет 5 дочерних параметров:

  • surname. Обязательный. Значение - фамилия персоны.
  • name. Необязательный. Значение - имя персоны.
  • secname. Необязательный. Значение - отчество персоны.
  • attr. Необязательный. Значение - должность персоны. Если у персоны есть несколько должностей или вариантов их написания, то каждый такой вариант записывается в отдельном параметре "attr" (см. пример справа)

<person>
  <surname>Колокольцев</surname>
  <name>Владимир</name>
  <secname>Александрович</secname>
  <attr>Министр</attr>
  <attr>генерал-полковник полиции</attr>
</person>
<person>
  <surname>Горовой</surname>
  <name>Александр</name>
  <secname>Владимирович</secname>
  <attr>первый заместитель Министра</attr>
</person>

...


  • Структура

Правило, которое проверят, корректная ли структура у документа.

Пример cfg-файла для данного правила: Пользовательские параметры (Структура).cfg

Даже если все параметры в правиле будут = "false", оно все равно по умолчанию проверит, не сбилась ли нумерация в разделах, подразделах, пунктах и т.п.

Параметры правилаОписаниеПример заполнения в cfg-файлеЗначение параметра, которые действие использует по умолчанию для этого правила
CheckAppendixNames

Если значение параметра - "true", то проверяется, совпадает ли имя приложения документа и имя во внутренней ссылке на это приложение.

Внутренней ссылкой необязательно является гиперссылка на вложение, это может быть и обычный текст, в котором упоминается вложение данного документа. Например, "Утвердить прилагаемую Инструкцию о порядке...".

Если проверять имена приложений не нужно, укажите в параметре "false".

<CheckAppendixNames>false</CheckAppendixNames>true
CheckAppendixList

Если значение параметра - "true", то при наличии списка приложений будет проверено, есть ли эти приложения в документе.

Если проверять приложения не нужно, укажите в параметре "false".

<CheckAppendixList>false</CheckAppendixList>true
NumberSuffixControl

Если значение параметра - "true", то в нумерованных списках номера одного типа должны иметь одинаковый суффикс или не иметь его вообще. Как правило, суффиксом является "." или ")". Например "2. Утвердить..." или "2) Утвердить".

Например, в документе с таким нумерованным списком будет оставлено замечание для пункта "2)", т.к. его суффикс не совпадает с остальными:
"1. Утвердить...
2) Начальнику...
3. Установить...
"

Если проверять суффиксы не нужно, укажите в параметре "false".

<NumberSuffixControl>false</NumberSuffixControl>true
LastPointControl

Если значение параметра - "true", то в конце любого текстового блока должны быть точка, точка с запятой или двоеточие.

Если проверять наличие этих символов не нужно, укажите в параметре "false".

<LastPointControl>false</LastPointControl>true
CommentEmptyUnits

Если значение параметра - "true", то будут найдены главы, разделы, подразделы и т.п. в документе, в которых пусто или есть только ключевое слово\фраза из списка параметра "EmptyContTmpls". На все подобные места будет оставлено замечание.

Если проверять наличие таких мест в документе не нужно, укажите в параметре "false".

<CommentEmptyUnits>true</CommentEmptyUnits>

false
CheckIndex

Если значение параметра - "true", то проверяется, что оглавление в документе соответствует реальным разделам в документе.

Если проверять корректность оглавления не нужно, укажите в параметре "false".

<CheckIndex>false</CheckIndex>

true

IndexMustBe

Если значение параметра - "true", то в документе должно быть оглавление.

Если проверять наличие оглавления не нужно, укажите в параметре "false".

<IndexMustBe>false</IndexMustBe>

false

TurnOffAnnot1

Если значение параметра - "true", то действие не будет оставлять замечания о том, что касается приложений документа. Замечаний не будет, даже если параметры "CheckAppendixNames" и "CheckAppendixList" = "true".

Если такие замечания нужны, укажите в параметре "false".

<TurnOffAnnot1>false</TurnOffAnnot1>

false

EmptyContTmpls

Параметр, в котором приводится список ключевых слов/фраз, которые указывают на то, что раздел документа пустой. Связан с параметром "CommentEmptyUnits" (см. его описание).

Каждое ключевое слово/фразу надо указывать в дочернем параметре "item".

Если список не заполнить, то действие будет ставить замечание на тех разделах документа, в которых нет текста (т.е. пусто).

Список игнорируется, если значение параметра "CommentEmptyUnits" = "false".

<EmptyContTmpls>
   <item>-</item>
   <item>НЕТ</item>
   <item>НЕ ПРЕДЪЯВЛЯТЬ</item>
</EmptyContTmpls>

<EmptyContTmpls>
    <item></item>
    <item>-</item>
    <item>НЕТ</item>
    <item>ОТСУТСТВОВАТЬ</item>
    <item>НЕ ТРЕБОВАТЬ</item>
    <item>НЕ ОПРЕДЕЛЯТЬ</item>
    <item />
</EmptyContTmpls>


  • Орфография

Правило, которое проверяет наличие орфографических ошибок.  

Пример cfg-файла для данного правила: Пользовательские параметры (Орфография).cfg

Параметры правилаОписаниеПример заполнения в cfg-файлеЗначение параметра, которые действие использует по умолчанию для этого правила
ignoreinref

Если значение параметра - "true", то слова с заглавной буквы не проверяются в сущностях. Это означает, что такие сущности, как имена собственные, географические объекты и др., будут проигнорированы при анализе.

Если подобные сущности нужно проверять, укажите в параметре "false".

<ignoreinref>false</ignoreinref>false
corrwords

Если значение параметра - "true", то будет предпринята попытка получить словарное слово путем замены или удаления одной буквы у слова документа, которое не из словаря.

Например, в документе есть слово "чорное". Такого слова нет в словаре, возможно в нем опечатались. Действие попробует поочередно заменить/удалить одну букву в слове и проверить, есть ли получившийся вариант в словаре. Таким способом можно получить слово "чёрное", которое является словарным - значит в слове из документа была ошибка, будет оставлено замечание.

Если такую проверку осуществлять не нужно, укажите в параметре "false".

<corrwords>false</corrwords>true
mergewords

Если значение параметра - "true", то действие попробует объединить рядом стоящие слова, которые не из словаря. Если при этом образуется словарное слово, то будет оставлено замечание, т.к. скорее всего здесь подразумевалось одно слово, но из-за ошибки (например, при некорректном переносе) слово поделилось на 2 отдельных.

Например, в документе указано "ввести в эксплу атацию". По отдельности "эксплу" и "атацию" - не являются словарными словами. Но если их объединить, то получится словарное "эксплуатацию". Будет оставлено замечание.

Если такую проверку осуществлять не нужно, укажите в параметре "false".

<mergewords>true</mergewords>true
translits

Если значение параметра - "true", то будет оставлено замечание об одиночных заменах букв кириллицы на латиницу и наоборот. Под эту проверку попадают только те буквы, написание которых в этих алфавитах совпадают.

Например, если в документа указано слово "дaнных", в котором буква "a" напечатана на английском, то будет оставлено замечание о наличии символа на латинице. Но если указано "дfнных", то замечания не будет - такую ошибку можно проверить только параметром"corrwords".

Если выполнять проверку замены букв на кириллице и латинице не нужно, укажите в параметре "false".

<translits>false</translits>по умолчанию действие не использует этот параметр
mincount

Если слово встречается указанное число раз или более, то оно не считается ошибкой. Здесь речь только про те слова, на которые можно было бы оставить замечания, согласно другим параметрам правила.

Например, значение параметра = 2. В документе есть слово "чорное". При "corrwords" = "true", будет выявлено, что возможно в слове опечатка и оставлено замечание. Но если в тексте "чорное" встречается 2 или более раз, то ни для одного из них не будет оставлено замечание.

<mincount>2</mincount>2
minlength

Минимальная длина слова для проверки. Слова меньшей длины не проверяются.

Например, в документе опечатались и указали "жыть" вместо "жить". Если значение параметра меньше или равно 4, то для этого слова будет оставлено замечание. Но при значении от 5 и больше, слово не будет проверено, т.к. в нем всего 4 символа.

<minlength>3</minlength>

по умолчанию действие не использует этот параметр

checkabbr

Если значение параметра - "true", то для аббревиатур должна быть расшифровка в тексте документа. Причем расшифровка должна быть оформлена в виде таблицы из двух столбцов - в первом нужно указать аббревиатуру, во втором - ее расшифровку. Название столбцов в "шапке" таблицы не имеет значения; "шапка" в целом может отсутствовать. Но таблица должна быть расположена до начала употребления аббревиатур в тексте.

Если проверять наличие расшифровки не нужно, укажите в параметре "false".

<checkabbr>false</checkabbr>

по умолчанию действие не использует этот параметр

minnoncyrlen

Если размер фрагмента текста, написанный на латинице, превышает указанное число символов, то будет выдано замечание.

Если значение параметра = 0, то такая проверка не осуществляется.

<minnoncyrlen>10</minnoncyrlen>

по умолчанию действие не использует этот параметр

maxWrongShare

Если доля неизвестных слов в документе больше указанного значения, то проверка документа не производится.

Неизвестные слова - это те, которые не указаны в параметре "word" и не являются словарными.

Допустимое значение параметра - число от 0 до 1 (где 1 = 100%).

<maxWrongShare>0,5</maxWrongShare>

по умолчанию действие не использует этот параметр

word

Параметр для указания слов, которые могут встретиться в документе, и при этом они не являются словарными словами. Указанные слова будут проигнорированы при проверке.

Например, если указать в параметре слово "чорный", которое не является словарным, то при проверке документа действие не оставит для этого слова замечание.

Если нужно указать несколько таких особых слов, то каждое из них записывается в отдельный параметр "word" (см. пример справа).

<word value="логи" />
<word value="преднастроенный" />

по умолчанию действие не использует этот параметр

Пример использования

Задача

Необходимо проверить документ на орфографию.

Решение

Воспользоваться действием "Проверить документ".

Реализация

  1. Перетащить на рабочую область Студии действие "Проверить документ".
  2. Заполнить параметры действия:
    • Документ: указать пусть к проверяемому документу. Для примера будет использован файл Пример.docx


    • Правило: выбрать "Орфография"
    • Пользовательские параметры: оставим пустым.
    • Остальные поля заполнить корректно любыми значениями (см. описание параметров действия выше)
  3. Запустить робота.

Результат

Программный робот отработал успешно. В указанной папке создано 2 файла:

  • Нет меток