Ähnlichkeitssuche—Hilfe

Zusammenfassung
Abbildung
Verwendung
Syntax
Codebeispiel
Umgebungen
Lizenzinformationen

Zusammenfassung

Identifiziert, welche Kandidaten-Features, basierend auf Feature-Attributen, die größte oder geringste Ähnlichkeit mit einem oder mehreren abzugleichenden Eingabe-Features aufweisen.

Weitere Informationen zur Funktionsweise der "Ähnlichkeitssuche"

Abbildung

Verwendung

Sie stellen einen Layer mit abzugleichenden Eingabe-Features und einen zweiten Layer mit Kandidaten-Features bereit, aus denen Übereinstimmungen abgerufen werden. Abzugleichende Eingabe-Features und Kandidaten-Features befinden sich häufig im selben Feature-Layer. Es besteht zwar die Möglichkeit, zwei getrennte Datasets zu erstellen, dies ist jedoch nicht erforderlich. Stattdessen ist es viel einfacher, Layer mit zwei verschiedenen Auswahlsätzen zu erstellen. Angenommen, Sie verfügen über eine Datei mit allen Verbrechensfällen des vergangenen Monats. Um alle Verbrechensfälle zu ermitteln, die dem letzten Autodiebstahl am ähnlichsten sind, können Sie folgendermaßen vorgehen:
- Wählen Sie mithilfe standardmäßiger ArcMap-Auswahlwerkzeuge oder Geoverarbeitungswerkzeuge den Datensatz für den letzten Autodiebstahl aus dem Layer mit allen Verbrechensfällen aus.
- Klicken Sie mit der rechten Maustaste auf den Layer mit der Auswahl, und klicken Sie auf Auswahl > Layer aus selektierten Features erstellen. Verwenden Sie diesen neuen Layer für den Parameter Abzugleichende Eingabe-Features.
- Kehren Sie die Auswahl für den Layer mit allen Verbrechensfällen um. Verwenden Sie diesen Layer für den Parameter Kandidaten-Features.
  Vorsicht:
  Wenn alle Eingaben aus einem Dataset stammen, wird häufig der Fehler begangen, dass die Auswahl nicht umgekehrt wird, sodass Abzugleichende Eingabe-Features die gleichen Features aufweist wie Kandidaten-Features. Dies ist mit Sicherheit nicht das gewünschte Ergebnis. Ein typisches Szenario zeichnet sich durch einen einzelnen Wert für Abzugleichende Eingabe-Features und viele Werte für Kandidaten-Features aus.
Wenn mehrere Abzugleichende Eingabe-Features vorhanden sind, basiert der Abgleich auf Durchschnittswerten von Interessenattributen. Wenn also beispielsweise zwei Abzugleichende Eingabe-Features vorhanden sind und eines der Interessenattribute eine Bevölkerungsvariable ist, sucht das Werkzeug nach Kandidaten-Features mit Bevölkerungen, die den durchschnittlichen Bevölkerungswerten weitestgehend entsprechen. Wenn die Bevölkerungswerte 100 und 102 betragen, sucht das Werkzeug beispielsweise nach Kandidaten mit Bevölkerungswerten, die dem Wert 101 nahe kommen.
Hinweis:
Enthält der Parameter mehrere Abzugleichende Eingabe-Features, sollten Sie Interessenattribute mit ähnlichen Werten auswählen. Wenn der Bevölkerungswert für eine der Eingaben 100 und die andere Eingabe 100.000 beträgt, sucht das Werkzeug nach Übereinstimmungen mit Bevölkerungszahlen, die dem Durchschnitt dieser beiden Werte nahe kommen: 50.050. Beachten Sie, dass dieser Durchschnittswert nicht dem Bevölkerungswert eines der Abzugleichenden Eingabe-Features entspricht.
Ausgabe-Features enthalten immer Punkte, es sei denn, die Abzugleichenden Eingabe-Features und Kandidaten-Features sind Polygone und Polylinien. Die Erstellung von Polygon- oder Polylinien-Ausgabe-Features kann bei großen Datasets zu einer Verlangsamung führen, sodass Sie die Option Ausgabe auf Punkte reduzieren aktivieren können, um Geometrien für eine verbesserte Performance durchzusetzen.
Mit dem Parameter Größte oder geringste Ähnlichkeit können Sie nach Features suchen, die gegenüber dem Wert für Abzugleichende Eingabe-Features die größte (MOST_SIMILAR) bzw. geringste Ähnlichkeit (LEAST_SIMILAR) aufweisen. In einigen Fällen sollten Sie beide Enden des Spektrums anzeigen. Wenn Sie 3 für den Parameter Anzahl der Ergebnisse und BOTH für den Parameter Größte oder geringste Ähnlichkeit eingeben, gibt das Werkzeug beispielsweise die drei Kandidaten-Features mit der größten und mit der geringsten Ähnlichkeit aus.
Jede in Ausgabe-Features angegebene Lösungsentsprechung ist eine Lösung, die den vorgesehenen Abzugleichenden Eingabe-Features entweder am ähnlichsten ist oder sich am meisten von ihnen unterscheidet; eine einzelne Lösung kann nicht beides sein (und Lösungsentsprechungen werden in den Ausgabe-Features nicht dupliziert). Wenn Sie Beides für den Parameter Größte oder geringste Ähnlichkeit auswählen, entspricht die maximale Anzahl möglicher resultierender Übereinstimmungen (Anzahl der Ergebnisse) demzufolge der Hälfte der Anzahl der Kandidaten-Features. Wenn Sie einen zu großen Wert für Anzahl der Ergebnisse eingeben, passt das Werkzeug ihn an den maximal möglichen Wert an.
Es kann vorkommen, dass die Ähnlichkeit für sämtliche Kandidaten-Features bewertet werden soll, um das räumliche Muster für die Ähnlichkeit zu ermitteln. Eine einfache Möglichkeit, anzugeben, dass alle Kandidaten-Features bewertet werden sollen, besteht darin, den Wert 0 für den Parameter Anzahl der Ergebnisse einzugeben. Das Werkzeug ermittelt daraufhin die Anzahl der gültigen Features im Kandidaten-Dataset und schreibt alle Werte nach Rangfolge, von der größten zur geringsten Ähnlichkeit, in die Ausgabe-Features.
Für die Abgleichmethode können Sie als Parameter ATTRIBUTE_VALUES, RANKED_ATTRIBUTE_VALUES oder ATTRIBUTE_VALUES auswählen.
- Für ATTRIBUTE_VALUES weisen die ähnlichsten Kandidaten die kleinste Summe der quadrierten Differenzen für alle Interessenattribute auf; alle Werte werden standardisiert, bevor die Unterschiede berechnet werden.
- Für RANKED_ATTRIBUTE_VALUES weisen die ähnlichsten Kandidaten die kleinste Summe der quadrierten Ränge für alle Interessenattribute auf. Die Ausgabe-Features zeigen diese Summen im Feld SIMINDEX (Summe der quadrierten Rangdifferenzen) an.
- Für ATTRIBUTE_PROFILES wird die Kosinusähnlichkeit gemessen. Die Kosinusähnlichkeit sucht nach den gleichen Beziehungen zwischen standardisierten Attributwerten, anstatt Werte abzugleichen. Angenommen, es gibt vier Interessenattribute mit der Bezeichnung A1, A2, A3 und A4, wobei A2 zweimal größer ist als A1, A3 und A2 fast identisch sind und A4 dreimal größer ist als A3. Für die Abgleichmethode ATTRIBUTE_PROFILES sucht das Werkzeug nach Kandidaten mit diesen Attributbeziehungen: zweimal so groß, dann fast identisch, dann dreimal so groß. Da diese Methode nach Attributbeziehungen sucht, müssen Sie mindestens zwei Interessenattribute für diese Methode angeben. Sie können die Methode der Kosinusähnlichkeit (ATTRIBUTE_PROFILES) verwenden, um Orte wie Los Angeles zu suchen, insgesamt jedoch in einem kleineren Maßstab. Der Index der Kosinusähnlichkeit reicht von 1,0 (vollständige Ähnlichkeit) bis -1,0 (vollständige Unähnlichkeit). Der Index der Kosinusähnlichkeit wird in das Feld Ausgabe-Features SIMINDEX (Kosinusähnlichkeit) geschrieben.
Die Interessenattribute müssen numerisch und in den Datasets Abzugleichende Eingabe-Features und Kandidaten-Features vorhanden sein (gleicher Feldname und gleicher Feldtyp). Für den Parameter Interessenattribute listet das Werkzeug alle numerischen Felder auf, die im Dataset Abzugleichende Eingabe-Features enthalten sind. Wenn das Werkzeug keine entsprechenden Felder für die Kandidaten-Features findet, wird eine Warnmeldung angezeigt, die darauf hinweist, dass die fehlenden Attribute aus der Analyse herausgefallen sind. Wenn alle Interessenattribute ausgelassen werden, kann das Werkzeug keinen Abgleich durchführen und Sie erhalten eine Fehlermeldung, die angibt, dass das Werkzeug die Analyse nicht durchführen kann.
Alle für den Abgleich herangezogenen Attribute werden in die Ausgabe-Features geschrieben. Der Parameter An Ausgabe anzuhängende Felder ermöglicht Ihnen ggf. die Einbeziehung anderer Felder in die Ausgabetabelle. Da numerische Felder für Interessenattribute möglicherweise keine effektiven Kennungen sind, können Sie einen Namen oder ein anderes Kennungsfeld für jede Lösungsentsprechung anhängen. Wenn Sie zwischen mehreren Lösungsentsprechungen auswählen müssen, können Sie auch andere numerische Attribute anhängen. Wenn gesuchte Lösung beispielsweise einem der Landnutzungstypen entsprechen muss, können Sie Lösungen, die diese Anforderung erfüllen, verbessern, indem Sie ein kategorisiertes Landnutzungsattribut anhängen: In einigen Fällen sollten zusätzliche numerische Attribute nur zu Referenzzwecken in die Ausgabe-Tabelle eingefügt werden. Angenommen, Sie suchen beispielsweise nach einem geeigneten Lebensraum für ein bestimmtes Tier. Sie können für Abzugleichende Eingabe-Features für das Überleben der Art bekannte Orte eingeben. Sie können Interessenattribute auswählen, die sich auf das Überleben der Art beziehen. Zudem können Sie ein numerisches Flächenattribut an die Ausgabe-Features anhängen, nicht um den Flächenwert des Ziels tatsächlich abzugleichen, sondern weil Sie letztlich nach Lösungen mit den größtmöglichen Flächen suchen.

Alle Abzugleichenden Eingabe-Features und Lösungsentsprechungen werden neben Interessenattribute und An Ausgabe anzuhängende Felder in die Ausgabe-Features geschrieben. Zudem werden folgende Felder in die Ausgabe-Features eingefügt:


Feldname	Feld-Alias	Beschreibung	Notizen
MATCH_ID	MATCH_ID	Alle Ziel-Features im Layer Abzugleichende Eingabe-Features werden zuerst mit ihrer OID- oder FID-Kennung aufgelistet, die in das Feld MATCH_ID geschrieben wird. Lösungsentsprechungen haben NULL-Werte für dieses Feld.	Wenn Ausgabe-Features ein Shapefile ist, werden NULL-Werte durch eine sehr große negative Zahl (wie -21474836) dargestellt.
CAND_ID	CAND_ID	Alle Lösungsentsprechungen werden als Nächstes aufgeführt und dieser Wert ist ihre OID- oder FID-Kennung. Die Ziel-Features im Layer Abzugleichende Eingabe-Features weisen NULL-Werte für dieses Feld auf.	Wenn Ausgabe-Features ein Shapefile ist, werden NULL-Werte durch eine sehr große negative Zahl (wie -21474836) dargestellt.
SIMRANK	Rangfolge der Ähnlichkeiten	Wenn Sie MOST_SIMILAR oder BOTH für den Parameter Abgleichmethode auswählen, werden alle Lösungsentsprechungen von der größten bis zur geringsten Ähnlichkeit geordnet. Die Lösungsentsprechung mit der größten Ähnlichkeit hat einen Rangwert von 1.	Das erste Feld wird nur dann in die Ausgabe-Features eingefügt, wenn Sie MOST_SIMILAR oder BOTH als Parameter für die Abgleichmethode auswählen.
DSIMRANK	Rangfolge der Unterschiede	Wenn Sie LEAST_SIMILAR oder BOTH für den Parameter der Abgleichmethode auswählen, werden alle Lösungsentsprechungen von der größten bis zur geringsten Ähnlichkeit geordnet. Die Auflösung mit der geringsten Ähnlichkeit erhält einen Rangwert von 1.	Das erste Feld wird nur dann in die Ausgabe-Features eingefügt, wenn Sie LEAST_SIMILAR oder BOTH als Parameter für die Abgleichmethode auswählen.
SIMINDEX	Summe der quadrierten Wertunterschiede, Summe der quadrierten Rangunterschiede oder Kosinusähnlichkeit	Dieses Feld bestimmt die Ähnlichkeit jeder Lösungsentsprechung mit dem Ziel-Feature. Wenn Sie ATTRIBUTE_VALUES für die Abgleichmethode angeben, lautet der Feld-Alias Summe der quadrierten Wertunterschiede. Wenn Sie RANKED_ATTRIBUTE_VALUES für die Abgleichmethode angeben, lautet der Feld-Alias Summe der quadrierten Rangdifferenzen. Wenn Sie ATTRIBUTE_PROFILESfür die Abgleichmethode angeben, lautet der Feld-Alias Kosinusähnlichkeit. Weitere Informationen zum Berechnen dieser Indizes finden Sie unter Funktionsweise der Ähnlichkeitssuche.	Wenn nur ein Wert für Abzugleichende Eingabe-Features vorhanden ist, ist dieses Feature das Ziel-Feature. Wenn mehr als ein Wert für Abzugleichende Eingabe-Features angegeben wird, ist das Ziel-Feature ein temporäres Feature, das mit durchschnittlichen Werten für alle Interessenattribute erstellt wird.
LABELRANK	Rangfolge für Rendering	Dieses Feld dient lediglich zu Anzeigezwecken. Das Werkzeug verwendet dieses Feld, um das Standard-Rendering der Analyseergebnisse bereitzustellen.

Der Ausgabe-Feature<ArcGIS>/Desktop10.x/ArcToolbox/Templates/Layers-Layer wird dem Inhaltsverzeichnis automatisch mit Standard-Rendering für das LABELRANK-Feld hinzugefügt. Das Rendering wird durch eine Layer-Datei in <ArcGIS>/Desktop10.x/ArcToolbox/Templates/Layers definiert. Sie können das Standard-Rendering nach Bedarf erneut anwenden, indem Sie die Vorlagen-Layer-Symbolisierung importieren.
Hinweis:
Die standardmäßige Stichprobengröße ist 10.000 Datensätze. Wenn die Anzahl der Ergebnisse größer ist als dieser Standardwert können Sie die Stichprobengröße erhöhen, um alle Ergebnisse anzuzeigen.

Syntax

SimilaritySearch(Input_Features_To_Match, Candidate_Features, Output_Features, Collapse_Output_To_Points, Most_Or_Least_Similar, Match_Method, Number_Of_Results, Attributes_Of_Interest, {Fields_To_Append_To_Output})

Parameter	Erklärung	Datentyp
Input_Features_To_Match	Der Layer (oder eine Auswahl für einen Layer), der die abzugleichenden Features enthält; Sie suchen nach anderen Features, die diesen Features ähneln. Wenn mehrere Features bereitgestellt werden, erfolgt der Abgleich auf Basis der durchschnittlichen Attributwerte. Tipp: Wenn Abzugleichende Eingabe-Features und Kandidaten- Features aus einem einzelnen Dataset stammen, wählen Sie die Referenz-Features aus, die Sie abstimmen möchten. Klicken Sie mit der rechten Maustaste auf den Layer, und wählen Sie Auswahl und dann Layer aus ausgewählten Features erstellen aus. Verwenden Sie den Layer, der für diesen Parameter erstellt wurde. Klicken Sie erneut mit der rechten Maustaste auf den Layer, und wählen Sie Auswahl und dann Auswahl umkehren, um den Layer abzurufen, den Sie für Ihre Kandidaten-Features verwenden möchten.	Feature Layer
Candidate_Features	Der Layer (oder eine Auswahl eines Layers), der Features enthält, die mit den Kandidaten übereinstimmen. Das Werkzeug sucht unter diesen Kandidaten nach Features, die die größte (geringste) Ähnlichkeit mit Input_Features_To_Match aufweisen.	Feature Layer
Output_Features	Die Ausgabe-Feature-Class enthält einen Datensatz für alle Input_Features_To_Match sowie für alle ermittelten Features mit Lösungsentsprechung.	Feature Class
Collapse_Output_To_Points	Wenn die Input_Features_To_Match und die Candidate_Features Linien oder Polygone sind, können Sie festlegen, ob die Geometrie für die Output_Features zu Punkten zusammengefasst werden oder der ursprünglichen Geometrie (Linien oder Polygone) der Eingabe-Features entsprechen sollen. Diese Option ist nur mit einer Desktop Advanced-Lizenz verfügbar. Durch die Auswahl von COLLAPSE für große Linien- oder Polygon-Datasets wird die Werkzeug-Performance verbessert. COLLAPSE —Die Linien- oder Polygon-Features werden als Feature-Schwerpunkte (Punkte) dargestellt. NO_COLLAPSE —Diese Ausgabe-Geometrie entspricht der Linien- oder Polygon-Geometrie der Eingabe-Features. Dies ist die Standardeinstellung.	Boolean
Most_Or_Least_Similar	Stellen Sie ein, ob Sie nach Features suchen, die die größte bzw. geringste Ähnlichkeit mit Input_Features_To_Match aufweisen. MOST_SIMILAR —Findet die Features mit der größten Ähnlichkeit. LEAST_SIMILAR —Findet die Features mit der geringsten Ähnlichkeit. BOTH —Finden sowohl die Features mit der größten als auch die Features mit der geringsten Ähnlichkeit.	String
Match_Method	Legen Sie fest, ob der Abgleich auf Werten, Rangstufen oder Kosinusbeziehungen basieren soll. ATTRIBUTE_VALUES —Ähnlichkeit oder Unterschiede basieren auf der Summe der quadrierten standardisierten Attributwertunterschiede für alle Interessenattribute. RANKED_ATTRIBUTE_VALUES —Ähnlichkeit oder Unterschiede basieren auf der Summe der quadrierten Rangunterschiede für alle Interessenattribute. ATTRIBUTE_PROFILES —Ähnlichkeit oder Unterschiede werden als Funktion von Kosinusähnlichkeit für alle Interessenattribute berechnet.	String
Number_Of_Results	Die Anzahl der zu suchenden Lösungsentsprechungen. Durch die Eingabe von Null oder einer Zahl, die größer ist als die Gesamtzahl der Candidate_Features, werden Bewertungen für alle Kandidaten-Features zurückgegeben.	Long
Attributes_Of_Interest [field,...]	Eine Liste der numerischen Attribute, die die Abgleichskriterien darstellen.	Field
Fields_To_Append_To_Output [field,...] (optional)	Eine optionale Attributliste, die in die Output_Features einbezogen werden sollen. Sie können beispielsweise eine Namenskennung, ein Kategoriefeld oder ein Datumsfeld einfügen. Diese Felder werden nicht zur Bestimmung der Ähnlichkeit verwendet; sie werden lediglich zu Referenzzwecken in die Output_Features aufgenommen.	Field

Codebeispiel

SimilaritySearch – Beispiel 1 (Python-Fenster)

Das folgende Skript veranschaulicht, wie das Werkzeug SimilaritySearch im Python-Fenster verwendet wird.

import arcpy
import arcpy.stats as SS
arcpy.env.workspace = r"C:\Analysis"
SS.SimilaritySearch ("Crime_selection", "AllCrime", "c:\\Analysis\\CrimeMatches", 
                     "NO_COLLAPSE", "MOST_SIMILAR", "ATTRIBUTE_VALUES", 4, 
                     "HEIGHT;WEIGHT;SEVERITY;DST2CHPSHP", "Name;WEAPON")

SimilaritySearch – Beispiel 2 (eigenständiges Python-Skript)

Das folgende eigenständige Python-Skript veranschaulicht, wie Sie das Werkzeug SimilaritySearch verwenden.

# Similarity Search of crime data in a metropolitan area
# Import system modules
import arcpy
import os
import arcpy.stats as SS
# Set property to overwrite existing output
arcpy.env.overwriteOutput = True
try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\Analysis"
    # Make a layer from the crime feature class
    arcpy.MakeFeatureLayer_management("AllCrime", "Crime_selection") 
    # Select the target crime to match
    # Process: Select By Attribute
    arcpy.SelectLayerByAttribute_management("Crime_selection", "NEW_SELECTION",
                                            '"OBJECTID" = 1230043')
    # Use Similarity Search to find  to create groups based on different variables 
    # or analysis fields
    # Process: Group Similar Features  
    SS.SimilaritySearch("Crime_selection", "AllCrime", "CJMatches", "NO_COLLAPSE",
                        "MOST_SIMILAR", "ATTRIBUTE_VALUES", 4,
                        "HEIGHT;WEIGHT;SEVERITY;DST2CHPSHP", "Name;WEAPON")
    
except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Umgebungen

Lizenzinformationen

Basic: Ja
Standard: Ja
Advanced: Ja