给定一组要素(输入要素类)和一个分析字段(输入字段),聚类和异常值分析工具可识别具有高值或低值的要素的空间聚类。该工具还可识别空间异常值。为此,该工具计算 local Moran's I 值、z 得分、p 值和表示每个具有显著统计学意义的要素的聚类类型的编码。z 得分和 p 值表示计算出的指数值的统计显著性。
计算
解释
正值 I 表示要素具有包含同样高或同样低的属性值的邻近要素;该要素是聚类的一部分。负值 I 表示要素具有包含不同值的邻近要素;该要素是异常值。在任何一个实例中,要被视为具有统计学上的显著性的聚类和异常值,要素的 p 值必须足够小。有关确定统计显著性的详细信息,请参阅什么是 z 得分?什么是 p 值?请注意,Local Moran's I 指数 (I) 是相对测量,只能在其计算出的 z 得分或 p 值环境中进行说明。在输出要素类中报告的 z 得分和 p 值对于多重测试或空间依赖性来说未经校正。
聚类/异常值类型 (COType) 字段可区分具有统计显著性的高值 (HH) 聚类、低值 (LL) 聚类、高值主要由低值围绕的异常值 (HL) 以及低值主要由高值围绕的异常值 (LH)。统计显著性的置信度设置为 95%。如果没有应用任何 FDR 校正,p 值小于 0.05 的要素视为具有统计显著性。FDR 校正将此 p 值阈值从 0.05 降低到某个新值,以便在兼顾多重测试的情况下更好地反映置信度 95%。
输出
该工具可使用输入要素类中的每个要素的以下属性来创建新的输出要素类:Local Moran's I 指数、z 得分、p 值和 COType。
在 ArcMap 中运行此工具时,输出要素类会自动添加到内容列表 (TOC),同时对 COType 字段应用默认渲染。应用的渲染由 <ArcGIS>/ArcToolbox/Templates/Layers 路径下的图层文件定义。需要时,可通过导入模板图层符号系统重新应用默认渲染。
最佳做法准则
- 结果仅在输入要素类至少包含 30 个要素时可靠。
- 该工具需要输入字段,如计数、速率或其他数值测量。如果正在分析点数据,只要每个点表示一个事件或事件点,您就不必计算特定数值属性(严重性等级、计数或其他测量)。如果想要查找存在许多事件点(热点)和/或存在很少事件点(冷点)的位置,则在分析之前需要聚合事件数据。热点分析 (Getis-Ord Gi*) 工具也是查找热点和冷点位置的有效工具。但是,只有聚类和异常值分析 (Anselin Local Moran's I) 工具可以识别具有统计学上的显著性的空间异常值(高值由低值围绕或低值由高值围绕)。
- 选择适当的空间关系概念化。
- 选择 SPACE_TIME_WINDOW 概念化时,可以识别空间-时间聚类和异常值。有关详细信息,请参阅空间-时间分析。
- 选择适当的距离范围或阈值距离。
- 所有要素都应至少具有一个相邻要素。
- 任何要素都不应将其他所有要素作为相邻要素。
- 特别是输入字段的值偏斜时,每个要素都应具有大约八个相邻要素。
可能的应用
聚类和异常值分析 (Anselin Local Moran's I) 工具可识别高值密度、低值密度和空间异常值。还可帮助您解决如下问题:
- 研究区域中的富裕区和贫困区之间的最清晰边界在哪里?
- 研究区域中存在可以找到异常消费模式的位置吗?
- 研究区域中意想不到的糖尿病高发地在哪里?
可在经济学、资源管理、生物地理学、政治地理学和人口统计等许多领域中应用此工具。
其他资源
Anselin, Luc."空间关联的局部指示器 - LISA," 地理分析 27(2):93–115,1995。
Mitchell, Andy.The ESRI Guide to GIS Analysis,第 2 卷。ESRI 出版社,2005。