Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Extract addresses Version 4 (python)

Группа Group "Robin AI", подгруппа subgroup "NER (ROBIN)"

...

Description

The action extracts the address from the text. Each address is stored as a dictionary, where the key is a separate element of the address

...

Action icon

Image Modified

...

Parameters

Входные параметры

Input parameters

  • Text - text from which addresses will be extracted.
  • Without the address element type - parameter by means of which the resulting dictionary will indicate/not indicate the address element type.
  • The original view of the address element - parameter by which the address will be represented as in the source text or written as the official full address element view. For example, with the parameter enabled, the address "г Нижний Новгород" will be written as such, while if the parameter is disabled, the resulting address will be
  • Текст – текст, из которого будут извлекаться адреса.
  • Без вида элемента адреса – параметр, с помощью которого в результирующем словаре будут указаны/не указаны вид элемента адреса.
  • Исходный вид элемента адреса – параметр, с помощью которого адрес будет представлен как в исходном тексте или записан как официальный полный вид элемента адреса. Например, с включенный параметром адрес "г. Нижний Новгород" так и будет записан, а если параметр отключен, то адрес в результате будет "Нижний Новгород".

Выходные параметры

  • Результат – коллекция словарей с извлеченными адресами. Повторяющиеся в тексте адреса записываются в коллекции один раз.

    Каждый найденный адрес будет записан в словарь, где ключами являются поля адреса, а значениями – извлеченные данные.

    Ключи словаря адресов:

    • Полный адрес
    • Страна
    • Субъект Российской Федерации
    • Муниципальное образование
    • Административно-территориальная единица
    • Населенный пункт
    • Элемент планировочной структуры
    • Элемент улично-дорожной сети
    • Элемент объекта адресации
    • Тип здания
    • Тип помещения
    • Почтовый индекс

...

Output parameters

  • Result is a collection of dictionaries with extracted addresses. Addresses repeated in the text are recorded in the collection once.

    Each address found will be written to a dictionary, where the keys are the address fields and the values are the extracted data.

    Address dictionary keys:

  • Full address
  • Country
  • Subject of the Russian Federation
  • Municipal entity
  • Administrative-territorial unit
  • Settlement
  • Planning structure element
  • Element of street and road network
  • Addressing object element
  • Building type
  • Room type
  • Postal code

Settings

Property

Description

Type

Filling example

Mandatoryfield

Parameters

Text

The text from which the addresses will be extracted

String

Школа Евгении расположена по адресу: Нижегородская область, г.Нижний Новгород, ул.Ленина, д.100

Yes

Without the address element typeIf the value is «true», only the name of the address element will be specified. If «false», the name and type of the address element will be recorded in the dictionaryBooleantrueNo
The original view of the address elementIf the value is «true», then the type of the address element will be specified as in the source text. If «false», the dictionary will record the official full view of the address elementBooleantrueNo
Results

Result

A collection of dictionaries with extracted data. If the same address occurs several times in the text, then it will be recorded once in the resulting collection

Collection

Особые условия использования 

  1. Если в поле "Текст" заданный текст не имеет какого-либо поля адреса, то значение в словаре вернется пустым. При отсутствии в тексте всех адресообразующих элементов действие вернет пустой результат.
  2. Словарь всегда создается с полным набором ключей, чтобы не возникало ошибки при обращении к любому ключу словаря.
  3. Если одновременно отмечены параметры "Без вида элемента адреса" и "Исходный вид элемента адреса", то галочка у "Исходный вид элемента адреса" будет проигнорирована.
  4. Если в одном предложении указаны страна, и город, а в другом предложении списком улица, дом, индекс, то есть в разных предложениях части одной сущности, то они извлекутся как разные адреса в отдельные словари, не дополняя друг друга.
  5. В ключ "Полный адрес" попадает вся найденная строка с адресом, а остальные поля будут заполнены согласно ключам словаря.

  6. Робот вернет пустую коллекцию словарей, если:

    • В исходном тексте не будет найдено ни одного элемента адреса.

    • Исходный текст на неподдерживаемом языке. В текущей версии поддерживается русский язык.

Справочная таблица



Special conditions of use

  1. If the given text does not have any address field in the "Text" field, the value in the dictionary will return empty. If there are no all addressable elements in the text, the action will return an empty result.
  2. A dictionary is always created with a complete set of keys so that no error occurs when accessing any key in the dictionary.
  3. If "Without the address element type" and "The original view of the address element" are checked at the same time, the "The original view of the address element" checkbox will be ignored.
  4. If one sentence contains country, and city, and another sentence lists street, house, and index, that is, parts of the same entity in different sentences, they will be extracted as different addresses into separate dictionaries, not complementing each other.
  5. The "Full address" key contains the entire address string found, and the rest of the fields will be filled in according to the dictionary keys.

  6. The robot will return an empty dictionary collection if:

    • No address elements will be found in the source text.

    • Source text in an unsupported language. Russian language is supported in the current version.

Reference table

Commonly accepted abbreviations of words that are included in the address and address elements are listed in the tableОбщепринятые сокращения слов, которые включаются в адрес и адресообразующие элементы приведены в таблице.

Раскрыть
titleТаблица сокращений


Страна

Субъекты Российской Федерации
АССРРеспубликаресп., республики
УССРКрайкрай
УЗССРОбластьобл.
ССРГород федерального значенияг.ф.з.
СССРАвтономная областьа.обл., автоном. область
Автономный округа.окр., автоном. округ
Муниципальные образованияАдминистративно-территориальные единицы
Муниципальный районм.р-нПоселениепос.
Городской округг.о.
Городское поселениег.п.Районр-н
Сельское поселениес.п.
Внутригородской районвн.р-нСельсоветс/с
Внутригородская территория (внутригородское муниципальное образование) города федерального значениявн.тер.г.
Населенные пунктыЭлементы планировочной структуры
Городг.Берегб-г
Поселок городского типапгт.Валвал
Рабочий поселокрп.Жилой районж/р
Курортный поселоккп.Зона (массив)зона
Городской поселокгп.Кварталкв-л
Поселокп.Микрорайонмкр.
АалаалОстровост-в
АрбанарбанПаркпарк
АулаулПлатформаплатф.
Выселкив-киПромышленный районп/р
Городокг-кРайонр-н
Заимказ-каСадсад
Починокп-кСкверсквер
Кишлаккиш.Территориятер.
Поселок при станции (поселок станции)п. ст. Территория садоводческих некоммерческих объединений граждантер. СНО
Поселок при железнодорожной станциип. ж/д ст. Территория огороднических некоммерческих объединений граждантер. ОНО
Железнодорожный блокпостж/д бл-стТерритория дачных некоммерческих объединений граждантер. ДНО
Железнодорожная будкаж/д б-каТерритория садоводческих некоммерческих товариществтер. СНТ
Железнодорожная веткаж/д в-каТерритория огороднических некоммерческих товариществтер. ОНТ
Железнодорожная казармаж/д к-маТерритория дачных некоммерческих товариществтер. ДНТ
Железнодорожный комбинатж/д к-тТерритория садоводческих потребительских кооперативовтер. СПК
Железнодорожная платформаж/д пл-маТерритория огороднических потребительских кооперативовтер. ОПК
Железнодорожная площадкаж/д пл-каТерритория дачных потребительских кооперативовтер. ДПК
Железнодорожный путевой постж/д п.п.Территория садоводческих некоммерческих партнерствтер. СНП
Железнодорожный остановочный пунктж/д о.п.Территория огороднических некоммерческих партнерствтер. ОНП
Железнодорожный разъездж/д рзд.
Железнодорожная станцияж/д ст. Территория дачных некоммерческих партнерствтер. ДНП
Местечком-ко
Деревняд., дер.Территория товарищества собственников недвижимоститер. ТСН
Селос.
Слободасл.Территория гаражно-строительного кооперативатер. ГСК
Станцияст. 
Станицаст-цаУсадьбаус.
Улусу.Территория фермерского хозяйстватер.ф.х.
Хуторх.
Разъездрзд.Юртыю.
Зимовьезим.Совхозсвх
Элементы улично-дорожной сетиЭлементы объектов адресации
Аллеяал.Зданиезд.
Бульварб-рДомовладениедвлд.
Взвозвзв.Владениевлд.
Въездвзд.Земельный участокз/у
Дорогадор.Сооружениеcoop.
Заездззд.Домд.
КилометркмОбъект незавершенного строительстваОНС
Кольцок-цо
КосакосаТипы зданий
Линиялн.Корпуск.
Магистральмгстр.Строениестр.
Набережнаянаб.Шахташах.
Переездпер-дГаражг-ж
Переулокпер.Котельнаякот.
Площадкапл-каТипы помещений
Площадьпл.Квартиракв.
Проездпр-дКомнатаком.
Просекпр-кОфисофис
Просекапр-каПавильонпав.
Проселокпр-локПомещениепом.
Проспектпр-ктРабочий участокраб.уч.
Проулокпроул.Складскл.
Разъездрзд.Торговый залторг.зал
Ряд(ы)рядЦехцех
Скверс-рПодвалподв.
Спускс-к


Съездсзд.

Тракттракт

Тупиктуп.

Улицаул.

Шоссе

ш.

Пример использования 

Задача




Example of use

Task

There is a text to recognizeИмеется текст для распознавания:

"Обращением к архитектуре итальянского ренессанса в 1930-е годы стал знаменитый дом на Моховой, построенный в 1932–1934 годах И.В. Жолтовским по адресу: Россия, Московская область, г. Москва, ул. Моховая, д. 13. Здание строилось по заказу Моссовета как жилой дом. Шестой и седьмой этажи со стороны главного фасада занимали двухэтажные квартиры, во двор выходили комнаты-мастерские высотой в два этажа, застеклённые большими окнами-витражами."

Необходимо извлечь из текста адреса и записать в имеющийся табличный документ.

Решение

 Воспользоваться действиями: "Извлечь адреса", "Получить ключи", "Получить значения", "Открыть", "Установить значения столбца", цикл "Для каждого".

Реализация

Addresses need to be extracted from the text and written into an existing tabular document.

Solution

Use the actions: "Extract addresses", "Get keys", "Get values", "Open", "Set column values", loop "For each".

Implementation

  1. Drag the "Extract addresses" action to the workspace.
    Image Added

  2. Set the parameters of the "Extract addresses" action.
    Enter the text to be recognized in the "Text" field.
    Image Added

    Set the "The original view of the address element" parameter to Перетащить на рабочую область действие "Извлечь адреса".
    Image Removed
    Настроить параметры действия "Извлечь адреса".
    В поле "Текст" ввести текст для распознавания.
    Image Removed
    Для параметра "Исходный вид элемента адреса" установить значение "true".

    Перетащить на рабочую область действие "Открыть" и настроить параметры действия
  3. Drag the "Open" action to the workspace and customize the action settings.



    Перетащить на рабочую область цикл "Для каждого".
    Image Removed
    В параметр "Коллекция" цикла "Для каждого" добавить результат действия "Извлечь адреса".
    Image Removed
    Перетащить на рабочую область действия "Получить ключи" и "Получить значения" в цикл "Для каждого".
    Image Removed
    Настроить параметры действий "Получить ключи" и "Получить значения".
    В параметр "Словарь" добавить результат цикла "Для каждого".
    Image RemovedImage Removed
    Перетащить на рабочую область действия "Установить значения столбца".
    Image Removed
    Настроить параметры действий "Установить значения столбца". 
  4. Установить контекст - результат действия "Открыть"
  5. В параметр "Имя столбца" добавить столбцы A и B
  6. В параметр "Значение ячеек" добавить результаты действий "Получить ключи" и "Получить значения"
  7. Установить номер начальной строки диапазона
    Image RemovedImage Removed
  8. Нажать на кнопку "Старт" в верхней панели.

Результат

Программный робот отработал успешно.

Извлеченные адреса записаны в табличный документ.

Image Removed

Image Removed

При установке значения "true" параметра "Без вида элемента адреса" действия "Извлечь адреса"

Image Removed


  1. Drag the "For each" loop to the workspace.Image Added

  2. In the "Collection" parameter of the "For each" loop, add the result of the "Extract Addresses" action.
    Image Added

  3. Drag the "Get keys" and "Get values" actions into the "For each" loop on the workspace.
    Image Added

  4. Set up the "Get keys" and "Get values" action parameters.
    Add the result of the "For each" loop to the "Dictionary" parameter.
    Image AddedImage Added

  5. Drag the "Set column values" action to the workspace.
    Image Added

  6. Set the "Set column values" action parameters. 
    1. Set context - result of "Open" action
    2. Add columns A and B to the Column name parameter
    3. Add the results of the "Get keys" and "Get values" actions to the "Cell value" parameter
    4. Set the starting line number of the range
      Image AddedImage Added

  7. Click on the "Start" button in the top panel.

Result

The program robot completed successfully.

The extracted addresses are recorded in a tabular document.

Image Added


Image Added

When "true" is set to "Without the address element type", the "Extract addresses" action is set to "Extract addresses"

Image Added

the resulting dictionary will not include the types of address elements в результирующем словаре не будут указаны виды элементов адреса: