热点分析工具可对数据集中的每一个要素计算 Getis-Ord Gi* 统计(称为 G-i-星号)。通过得到的 z 得分和 p 值,您可以知道高值或低值要素在空间上发生聚类的位置。此工具的工作方式为:查看邻近要素环境中的每一个要素。高值要素往往容易引起注意,但可能不是具有显著统计学意义的热点。要成为具有显著统计需意义的热点,要素应具有高值,且被其他同样具有高值的要素所包围。某个要素及其相邻要素的局部总和将与所有要素的总和进行比较;当局部总和与所预期的局部总和有很大差异,以致于无法成为随机产生的结果时,会产生一个具有显著统计学意义的 z 得分。如果应用 FDR 校正,统计显著性会根据多重测试和空间依赖性进行调整。
计算
解释
为数据集中的每个要素返回的 Gi* 统计就是 z 得分。对于具有显著统计学意义的正的 z 得分,z 得分越高,高值(热点)的聚类就越紧密。对于统计学上的显著性负 z 得分,z 得分越低,低值(冷点)的聚类就越紧密。有关确定统计显著性以及针对多重测试和空间依赖性进行校正的详细信息,请参阅什么是 z 得分? 什么是 p 值?
输出
此工具使用 z 得分、p 值和置信区间 (Gi_Bin) 为输入要素类中的每个要素创建一个新的输出要素类。如果对于“输入要素类”应用了选择集,则只会对所选要素进行分析,且在“输出要素类”中也将仅显示所选要素。
在 ArcMap 中运行此工具时,输出要素类会自动添加到内容列表,同时对 Gi_Bin 字段应用默认渲染。所应用的由热到冷的渲染由 <ArcGIS>/ArcToolbox/Templates/Layers 中的图层文件定义。需要时,可通过导入模板图层符号系统重新应用默认渲染。
热点分析注意事项
在进行任何热点分析时,都需要对以下三项内容加以考虑:
- 什么是“分析字段”(输入字段)? 热点分析工具可评估是高值还是低值(例如,犯罪数量、事故严重程度或花在体育用品上的开销(以美元计))在空间上发生聚类。包含上述值的此类字段即为“分析字段”。对于点事件数据,同分析与事件点相关联的任意特定值的空间聚类相比,您可能对评估事件的点密度更感兴趣。在这种情况下,需要在分析前对事件点数据进行聚合。有多种方法可实现此目的:
- 如果研究区域存在面要素,则可使用空间连接工具对每个面中的事件进行计数。包含每个面中的事件数的结果字段将成为后续分析的输入字段。
- 使用创建渔网工具在点要素上方构建面格网。然后使用空间连接工具对落在每个格网面内的事件进行计数。移除落在研究区域外部的所有格网面。此外,如果研究区域内的许多格网面所包含的事件数为零,则可增加面格网的大小,如果合适的话,也可以在分析前移除那些计数为零的格网面。
- 或者,如果具有大量的重合点,或者在短距离内存在大量点,则可以将整合与收集事件工具结合使用以执行如下操作:(1) 将处于彼此指定距离范围内的要素捕捉到一起,然后,(2) 使用相关联的计数属性创建一个新的要素类(每个唯一位置处都包含一个点)以指示事件/捕捉点的数量。使用生成的 ICOUNT 字段作为输入字段进行分析。
- 哪项为合适的空间关系的概念化? 最佳的距离范围或距离阈值是多少?
对于热点分析 (Getis-Ord Gi*) 工具,推荐的(和默认的)空间关系的概念化为“固定距离范围”。“空间时间窗”、“无差别的区域”、“邻接”、“K 最近邻域”和“Delaunay 三角测量”也都可以正常工作。有关确定分析距离值最佳做法和策略方面的讨论,请参阅选择空间关系的概念化和选择固定距离。有关时空热点分析的详细信息,请参阅空间-时间分析。
- 问题是什么?
这似乎是显而易见的,但如何构建用于分析的输入字段决定了您可以询问的问题类型。您最关注的内容是确定在何处拥有很多事件点,还是特定属性的高/低值在何处发生了空间聚类? 如果是这样,则对原始值或原始事件点计数运行热点分析。此分析类型对于问题的资源分配类型来说特别有用。或者(或者说另外),您可能会对找出具有与某些其他变量有关的异常高值的区域更感兴趣。例如,如果正在对止赎进行分析,您很可能期望在具有较多房屋的位置处拥有更多的止赎(换句话说,就是在某种程度上,您期望止赎数量与房屋数量之间存在一种函数关系)。如果用止赎数量除以房屋数量,则对该比值运行“热点分析”工具,您不再询问“何处存在大量止赎?”;相反,您会询问“若给定房屋数量,则何处存在止赎数量异常高的情况?” 通过在分析之前创建一个比率或比例,可进行控制以获得某些所需关系(例如,犯罪数量是人口的函数;止赎数量是房屋数量函数)并确定异常的热/冷点。
最佳做法准则
- 输入要素类是否至少包含 30 个要素? 如果少于 30 个要素,则结果不可靠。
- 您选择的空间关系的概念化是否合适? 对于此工具,建议使用 FIXED_DISTANCE_BAND 方法。有关时空热点分析,请参阅选择空间关系的概念化。
- 距离范围或距离阈值是否合适? 请参阅选择固定距离。
- 所有要素都应至少具有一个相邻要素。
- 任何要素都不应将其他所有要素作为相邻要素。
- 尤其是在输入字段的值偏斜时,每个要素都应具有八个左右的相邻要素。计算近邻点距离工具可用于查找平均距离,在该距离处,每个要素都有 8 个相邻要素。
潜在的应用
应用领域包括:犯罪分析、流行病学、投票模式分析、经济地理学、零售分析、交通事故分析以及人口统计学。其中的一些应用示例包括:
- 疾病集中爆发在什么位置?
- 何处的厨房火灾在所有住宅火灾中所占的比例超出了正常范围?
- 避难场所应设置在哪里?
- 峰值密集区出现于何处/何时?
- 我们应在哪些位置和什么时间段分配更多的资源?
其他资源
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.
Getis, A. 和 J.K. Ord. 1992. "The Analysis of Spatial Association by Use of Distance Statistics" in Geographical Analysis 24(3).
Ord, J.K. 和 A. Getis. 1995。"Local Spatial Autocorrelation Statistics: Distributional Issues and an Application" in Geographical Analysis 27(4).
空间统计资源页面提供了短片、教程、web 研讨会、文章和多种其他材料,以帮助用户开始使用空间统计。
Scott, L. 和 N. Warmerdam。Extend Crime Analysis with ArcGIS Spatial Statistics Tools,ArcUser Online,2005 年 4 月 - 6 月。