Chapter 12. Adressennormierer

Table of Contents
12.1. Funktionsweise des Parsers
12.2. Adressennormierer Datentypen
12.3. Adressennormierer Tabellen
12.4. Adressennormierer Funktionen

Dies ist ein Entwicklungszweig des PAGC Adressennormierers (der Code für diesen Teilbereich beruht auf dem PAGC Adressennormierer für PostgreSQL).

Der Adressennormierer ist ein Parser für einzeilige Adressen. Eine gegebene Adresse wird anhand von in einer Tabelle abgelegten Regeln und den Hilfstabellen "lex" und "gaz" normiert.

Der Code befindet sich in einer einzelnen PostgreSQL Erweiterungsbibliothek mit der Bezeichnung address_standardizer und kann mittels CREATE EXTENSION address_standardizer; installiert werden. Zusätzlich zu der Erweiterung "address_standardizer" gibt es auch die Erweiterung address_standardizer_data_us, welche die Tabellen "gaz", "lex" und "rules" für Daten der USA enthält. Diese Erweiterung kann mittels CREATE EXTENSION address_standardizer_data_us; installiert werden.

Der Code für diese Erweiterung befindet sich unter PostGIS in extensions/address_standardizer und ist zurzeit self-contained ("unabhängig").

Für eine Installationsanleitung siehe: Section 2.8, “Installation und Verwendung des Adressennormierers”.

12.1. Funktionsweise des Parsers

Der Parser arbeitet von rechts nach links und betrachtet zunächst die Makroelemente Postleitzahl, Staat/Provinz, Stadt. Anschließend werden die Mikroelemente untersucht, um festzustellen ob es sich um eine Husnummer, eine Kreuzung oder eine Wegmarkierung handelt. Zur Zeit schaut der Parser nicht auf die Landeskennzahl oder -namen, dies kann aber möglicherweise noch implementiert werden.

Country code

Wird als US oder CA basiert angenommen: Postleitzahl als US oder Kanada, state/province als US oder Kanada, sonst US

Postcode/zipcode

Diese werden über Perl-kompatible reguläre Ausdrücke erkannt. Die Regexs befinden sich in "parseaddress-api.c" und können bei Bedarf relativ leicht angepasst werden.

State/province

Diese werden über Perl-kompatible reguläre Ausdrücke erkannt. Die Regexs befinden sich zurzeit in "parseaddress-api.c", könnten zukünftig aber zwecks leichterer Wartbarkeit in die "includes" verschoben werden.

12.2. Adressennormierer Datentypen

Abstract

Dieser Abschnitt listet die von der Erweiterung "Address Standardizer" installierten PostgreSQL-Datentypen auf. Beachten Sie bitte die hier beschriebene Verhaltensweise bei der Typumwandlung. Diese ist insbesondere dann sehr wesentlich, wenn Sie Ihre eigenen Funktionen entwerfen.

stdaddr — Ein zusammengesetzter Datentyp, der aus den Elementen einer Adresse besteht. Dies ist der zurückgegebene Datentyp der standardize_address Funktion.

12.3. Adressennormierer Tabellen

Abstract

Dieser Abschnitt beschreibt den Aufbau der PostgreSQL Tabellen, die von dem "address_standardizer" bei der Normalisierung von Adressen verwendet werden. Diese Tabellen können auch anders als hier bezeichnet werden. Sie können eigene "lex", "gaz" und "rules" Tabellen für jedes Land oder für einen benutzerdefinierten Geokodierer verwenden. Diese Tabellennamen werden an die Funktionen des Adressennormierers übergeben.

Das Erweiterungspaket address_standardizer_data_us enthält Daten zum Normieren von US Adressen.

rules Tabelle — Die Tabelle "rules" enthält die Regeln, nach denen die Token der Eingabesequenz der Adresse in eine standardisierte Ausgabesequenz abgebildet werden. Eine Regel besteht aus einem Satz Eingabetoken, gefolgt von -1 (Terminator), gefolgt von einem Satz Ausgabetoken, gefolgt von -1, gefolgt von einer Zahl zur Kennzeichnung des Regeltyps, gefolgt von der Rangordnung der Regel.
lex Tabelle — Eine "lex" Tabelle wird verwendet, um eine alphanumerische Eingabe einzustufen und mit (a) Eingabe-Tokens (siehe the section called “Eingabe-Token”) und (b) normierten Darstellungen zu verbinden.
gaz Tabelle — Eine "gaz" Tabelle wird verwendet, um Ortsnamen zu normieren und um diese mit (a) Eingabe-Token (siehe the section called “Eingabe-Token”) und (b) normierten Darstellungen zu verbinden. 

12.4. Adressennormierer Funktionen

parse_address — Nimmt eine 1-zeilige Adresse entgegen und zerlegt sie in die Einzelteile
standardize_address — Gibt eine gegebene Adresse in der Form "stdaddr" zurück. Verwendet die Tabellen "lex", "gaz" und "rule".