优化的热点分析使用从输入数据特征中派生的参数来执行热点分析 (Getis-Ord Gi*) 工具。数码相机的自动设置根据光线以及拍摄主体与背景对比度的读数来确定合适的光圈、快门速度和焦点,与此类似,优化的热点分析工具对数据进行查询,从而获得产生最佳热点结果的设置。例如,如果输入要素数据集包含事件点数据,则该工具会将事件点聚合到加权要素。通过使用加权要素的分布,此工具可确定适当的分析范围。输出要素中报告的统计显著性将使用错误发现率 (FDR) 校正法自动校正多重测试与空间依赖性。
在工具执行期间,此工具为给您带来最佳结果而做出的每个决策都将以消息形式报告,并在下方记录对这些决策的说明。
照相机具有可用于覆盖自动设置的手动模式,与此类似,热点分析 (Getis-Ord Gi*) 工具允许您完全控制所有参数选项。运行优化的热点分析工具并记录其使用的参数设置有助于优化您提供的用于完全控制热点分析 (Getis-Ord Gi*) 工具的参数。
优化的热点分析工具的工作流包括以下部分。下面将介绍各部分使用的计算和算法。
初始数据评估
此部分将仔细检查输入要素和可选的分析字段、限定可能发生事件的区域的边界面以及事件点聚合面,以确保要分析的数值具有足够的要素和充足的变差。如果工具遇到几何已损坏或缺少几何的记录,或在已指定分析字段并存在空值的情况下,相关记录将作为错误记录列出,而且不会对其进行分析。
优化的热点分析工具使用 Getis-Ord Gi*(读成 G-i 星号)统计;与许多统计方法类似,当要素数小于 30 时结果不可靠。如果提供面输入要素或点输入要素和一个分析字段,则至少需要拥有 30 个要素才能使用此工具。事件点聚合面的最小数量也为 30。表示限定可能发生事件的区域的边界面的要素图层可能包括一个或多个面。
Gi* 统计还要求值与其分析的每个要素相关联。如果您提供的输入要素表示事件数据(在没有提供分析字段的情况下),此工具将对事件进行聚合,而事件计数将作为要分析的值。聚合过程完成后,仍必须存在至少 30 个要素,对于事件数据,也需要超过 30 个要素才能开始聚合。下表记录了每个事件数据聚合方法的最小要素数:
最小事件数 | 聚合方法 | 聚合后的最小要素数 |
---|---|---|
60 | COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS,未指定定义事件潜在发生位置的边界面 | 30 |
30 | COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS,在为定义事件潜在发生位置的边界面参数提供要素类时 | 30 |
30 | COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS | 30 |
60 | SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS | 30 |
Gi* 统计也可专门用于包含各种不同值的分析字段。此统计不适用于某些数据,如二进制数据。优化的热点分析工具将检查分析字段以确保这些值至少具有一些变差。
如果指定了密度表面的路径,则工具这一部分的工作流还将检查栅格分析掩膜环境设置。如果没有设置栅格分析掩膜,则将在事件点周围构建一个凸包,用于裁剪输出密度表面栅格图层。密度表面参数仅在输入要素为点且您具有 ArcGIS Spatial Analyst 扩展模块 的情况下才启用。 将针对除 SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS 事件数据聚合方法外的其他所有方法禁用此参数。
位置异常值是指相比于数据集中的大多数要素,其与邻近要素的距离要远得多的要素。设想这样一种城市环境:中心是人口密集的大型城市,周边是人口密度较低的小型城市。在计算这些城市的平均最近邻距离时您会发现,如果排除周边的位置异常值并且只考虑靠近城区中心的城市,计算结果会比较小。此示例说明了位置异常值是如何对空间统计(如平均最近邻)造成巨大影响的。由于优化的热点分析工具使用平均和中位最近邻计算来进行聚合并确定相应的分析范围,此工具的初始数据评估组件也将识别输入要素或事件点聚合面中的任何位置异常值,并将报告其遇到的异常值数。为此,此工具将计算每个要素的平均最近邻距离并评估所有这些距离的分布。将那些与最近的非重合邻近要素距离超过三个标准差距离的要素视为位置异常值。
事件聚合
工作流中的下一部分将聚合事件数据。根据您选择的事件数据聚合方法,有三种可能的方法。下面将介绍每种方法的算法。
- COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS:
- 折叠重合点时将导致在数据集中的每个唯一位置生成单个点,使用的方法与收集事件工具所采用的方法相同。
- 计算所有唯一位置点(位置异常值除外)的平均和中位最近邻距离。平均最近邻距离 (ANN) 的计算方法是用每个要素与最近邻要素间的距离之和除以要素数量 (N)。中位最近邻距离 (MNN) 的计算方法是将最近邻距离按从小到大进行排序,然后选择位于排序列表中间位置的距离。
- 将初始像元大小 (CS) 设置为 ANN 或 MNN 中较大者。
- 调整像元大小以容纳重合点。较小值 = MIN(ANN,MNN);较大值 = MAX(ANN,MNN)。标量 = MAX((较大值/较小值),2)。调整后的像元大小变为 CS * 标量。
- 使用调整后的像元大小构建渔网面网格,并使用事件点叠加网格。
- 计算每个面像元中的事件点数量。
- 如果提供限定可能发生事件的区域的边界面时,则边界面中所有的面像元都将得到保留。如果不提供限定可能发生事件的区域的边界面,将移除不含事件的面像元。
- 如果聚合过程产生的面像元少于 30 个,或所有面像元中的计数都相同,您将收到一条消息,提示您所提供的输入要素不适用于所选的事件数据聚合方法;反之,此方法的聚合部分将成功完成。
- COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS:
- 对于此事件数据聚合方法,需要事件点聚合面要素图层。这些聚合面将叠加事件点。
- 对每个面中的事件进行计数。
- 确保事件计数中具有足够的变差以进行分析。如果聚合过程导致所有面都具有相同数量的事件,您将收到一条消息,指示您数据不适用于所选的事件数据聚合方法。
- SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS:
- 折叠重合点时将导致在数据集中的每个唯一位置生成单个点,使用的方法与收集事件工具所采用的方法相同。对唯一位置 (UL) 要素的数量进行计数。
- 计算所有唯一位置点(位置异常值除外)的平均和中位最近邻距离。平均最近邻距离 (ANN) 的计算方法是用每个要素与最近邻要素间的距离之和除以要素数量 (N)。中位最近邻距离 (MNN) 的计算方法是将最近邻距离按从小到大进行排序,然后选择位于排序列表中间位置的距离。
- 将初始捕捉距离 (SD) 设置为 ANN 或 MNN 中的较小者。
- 调整像元大小以容纳重合点。标量 = (UL/N),其中 N 是输入要素图层中的要素数。调整后的捕捉距离变为 SD * 标量。
- 通过三次迭代来集成事件点,首先用调整后的捕捉距离乘以 0.10,然后用调整后的捕捉距离乘以 0.25,最后与完全调整的捕捉距离相集成。分三次执行集成步骤可最大程度地减少起始点位置的变形。
- 折叠捕捉点将导致在每个位置生成单个点,并使用权重来表示一起捕捉到的事件点数量。聚合过程的这部分使用收集事件方法。
- 如果聚合过程产生的加权点少于 30 个,或所有点的计数都是相同的,您将收到一条消息,提示您所提供的输入要素不适用于所选的事件数据聚合方法;反之,此方法的聚合部分将成功完成。
分析范围
优化的热点分析工作流的下一部分将应用到加权要素,因为您提供了含有分析字段的输入要素,或因为事件聚合过程已通过事件计数创建权重。下一步是确定合适的分析范围。理想的分析范围是与您所提问题的范围相匹配的距离(例如,如果您正在寻找疾病暴发的热点,并知晓蚊虫传病媒介的范围是 10 英里,则使用 10 英里的距离最为合适)。如果无法判定用作分析范围的任何特定距离,则可通过一些策略来帮助解决这一问题。优化的热点分析工具采用了这些策略。
尝试的第一个策略是增量空间自相关。当看到地表上的空间聚类时,您将看到正在进行的基础空间过程。增量空间自相关工具为一系列增大的距离执行 Global Moran's I 统计量,同时测量各距离空间聚类的程度。聚类的程度由返回的 z 得分确定。通常情况下,距离的增大(z 得分也增大)表示聚类增强。但是,对于某些特定距离,z 得分通常为峰值。峰值反映促进空间过程聚类最明显的距离。优化的热点分析工具使用增量空间自相关来寻找峰值距离。如果找到峰值距离,该距离将成为分析范围。如果找到多个峰值距离,将选择第一个峰值距离。
如果没有找到峰值距离,优化的热点分析将检查要素的空间分布,并计算可为每个要素生成 K 个近邻的平均距离。K 的计算方法为 0.05 * N,其中 N 是输入要素图层中的要素数。将对 K 进行调整,使其永不小于 3 或大于 30。如果可产生 K 个近邻的平均距离超过一个标准距离,分析范围将设置为一个标准距离;否则,分析范围将反映 K 个近邻的平均距离。
对于大型密集数据集,增量空间自相关步骤可能会花费大量的时间。因此,如果遇到带有 500 个或更多近邻的要素,将跳过增量分析,而是计算可产生 30 个近邻的平均距离并将其用作分析范围。
反映分析范围的距离将报告到结果窗口,并将用于执行热点分析。如果提供了密度表面参数的路径,此最佳距离还将用作核密度分析工具的搜索半径。此距离相当于热点分析 (Getis-Ord Gi*) 工具使用的距离范围或距离阈值参数。
热点分析
此时在优化的热点分析工作流中,所有的检查和参数设置均已完成。下一步是运行 Getis-Ord Gi* 统计。热点分析 (Getis-Ord Gi*) 的工作原理中概述了有关此统计数学计算的详细信息。Gi* 统计结果将使用错误发现率 (FDR) 校正方法对多重测试和空间依赖性进行自动更正。在应用 FDR 校正后,写入结果窗口中的消息将对标识为具有统计学意义的热点或冷点的要素数进行汇总。
输出
优化的热点分析工具的最后一部分是创建输出要素,如果指定,还将创建密度表面栅格图层。如果输入要素表示需要聚合的事件数据,则输出要素将反映聚合的加权要素(渔网面像元、为事件点聚合面参数提供的聚合面,或加权点)。每个要素都将具有 z 得分、p 值和 Gi Bin 结果。
如果指定,将使用核密度分析工具来创建密度表面。此工具的搜索半径与用于热点分析的分析范围距离相同。默认渲染是沿着灰度色带的拉伸值。如果在环境设置中指定了栅格分析掩膜,则输出密度表面将被裁剪为分析掩膜。如果没有指定栅格分析掩膜,则密度表面将被裁剪为输入要素质心周围的凸包。
其他资源
Getis, A. 和 J.K. Ord.1992. "“通过应用距离统计数据分析空间关联”(地理分析 24(3))。
Ord, J.K. 和 A. Getis.1995. "局部空间自相关统计:分布问题和应用”,地理分析 27(4)。
空间统计资源页面提供了短片、教程、web 研讨会、文章和多种其他材料,以帮助用户开始使用空间统计。