本文档提供了有关工具参数的更多信息,而且介绍了使用空间统计工具分析数据时会遇到的重要的基本词汇和概念。需要工具参数的更多信息时,使用本文档作为参考。
空间关系的概念化
空间统计分析和传统(非空间)统计分析的一个重要区别是空间统计分析将空间和空间关系直接整合到算法中。因此,空间统计工具箱中的很多工具都要求用户在执行分析之前为空间关系的概念化表述参数选择一个值。常见的概念化包括反距离、行程时间、固定距离、K 最近相邻要素和邻接。您要使用的空间关系概念化表述主要取决于要测量的对象。例如,要测量特定种类种子植物的聚集程度,使用反距离可能最适合。但是,如果要评估某一地区通勤者的地理分布,行程时间和行程成本可能是描述这些空间关系的更好选择。对于某些分析,空间和时间可能没有更抽象的概念重要,例如熟悉程度(某些事物越熟悉,功能上越接近)或空间交互(例如,洛杉矶与纽约之间的通话数要比纽约与纽约附近较小城镇(例如波基普西市)之间的通话数更多;有些人可能认为洛杉矶和纽约在功能上更接近)。
分组分析工具包含一个称为空间约束的参数,而且其参数选项与空间关系的概念化参数的选项类似,只是使用方法不同。施加空间约束时,只有至少存在一个相邻要素(根据邻接、最近相邻要素关系或三角测量法的定义)的要素才可以属于同一分组。更多详细信息和示例,请参阅分组分析的工作原理。
下面介绍了空间关系的概念化表述参数的各个选项。所选的选项决定了用于评估相邻要素环境中各个要素工具的相邻关系。这些工具包括空间自相关(全局 Moran's I)、热点分析(Getis-Ord Gi*) 和聚类和异常值分析(Anselin 局部 Moran's I)。请注意,某些选项只有在使用生成空间权重矩阵或生成网络空间权重工具时才可用。
反距离、反距离平方(阻抗)
使用“反距离”选项时,空间关系的概念模型是一种阻抗或距离衰减。任何要素都会影响其他所有要素,但距离越远,影响越小。使用反距离这一概念化表述时,通常要指定一个距离范围或距离阈值以减少所需的计算数(尤其对于大型数据集而言)。如果未指定任何距离范围或距离阈值,将会为您计算默认阈值。通过将距离范围或距离阈值设置为零,可将每一个要素都强制指定为其他所有要素的相邻要素。
反欧氏距离适用于对连续数据(如温度变化)进行建模。当分析涉及硬件存储的位置或其他固定的城市设施位置时,道路网络数据不再适用,而反曼哈顿距离可能最为合适。使用“反距离平方”选项时的概念模型与使用“反距离”时相同,只是曲线的坡度更陡,因此相邻要素影响下降得更快,并且只有目标要素的最近相邻要素会对要素的计算产生重大影响。
距离范围(影响的范围)
对于某些工具(如热点分析),固定距离范围是默认空间关系的概念化。通过“固定距离范围”选项,可以对数据施加一个空间交互的影响范围或移动窗口概念模型。在为距离范围或距离阈值指定的距离范围内,将对邻近要素环境中的每个要素进行分析。指定距离范围内的相邻要素具有相等的权重。指定距离之外的要素不会影响计算(它们的权重为零)。如果要评估处于特定(固定)空间尺度下数据的统计属性,请使用“固定距离范围”方法。如果要研究通勤模式并且已知平均上下班路程为 15 英里,则最好使用 15 英里的固定距离进行分析。请参阅选择固定距离以了解有助于您确定合适的分析比例的策略。
无差别的区域
空间关系的概念化参数的“无差别的区域”选项将“反距离”模型和“固定距离范围”模型合并为一体。距离范围或距离阈值内的所有要素都包含在对目标要素的分析中。超过关键距离后,影响级别(权重)会快速下降。假设您正在找工作,而且可在一份 5 英里远的工作地和一份 6 英里远的工作地之间进行选择。这种情况下,在决定接受哪份工作时您可能不会过多地考虑距离。现在,假设您要在一份 5 英里远的工作地和另一份 20 英里远的工作地之间进行选择。这种情况下,距离会变得更像是阻抗并且可能影响到最终决策。如果想要保持分析的尺度不变,但不想在目标要素计算中所包含的相邻要素间添加明显的边界,请使用此方法。
面邻接(一阶)
对于面要素类,可选择 CONTIGUITY_EDGES_ONLY(有时称为 Rook's Case)或 CONTIGUITY_EDGES_CORNERS(有时称为 Queen's Case)。对于 CONTIGUITY_EDGES_ONLY,共享边(具有重合边界)的面包含在目标面的计算中。不共享边的面被排除在目标要素计算之外。对于 CONTIGUITY_EDGES_CORNERS,共享边和/或角的面包含于目标面的计算中。如果两个面存在重叠的部分,则将视为相邻要素并包含在彼此的计算中。要对某些类型的传染过程进行建模或要处理以面的形式显示的连续数据时,可以对面要素使用这些邻接概念化中的一种。
K 最近相邻要素
还可以构造相邻要素关系,以便每个要素都可在其指定数量的最近相邻要素空间环境内进行评估。如果 K(相邻要素数)为 8,则距目标要素最近的 8 个相邻要素都会包含在该要素的计算中。在要素密度高的位置处,分析的空间范围会比较小。与此类似,要素密度稀的位置,分析的空间范围会比较大。此空间关系模型的一个优势在于它可确保每个目标要素都有一些相邻要素,即使要素密度在研究区域内变化较大时也是如此。使用生成空间权重矩阵工具时该方法可用。作为与探索性回归结合以评估回归残差的默认概念化,相邻要素的数目的 K_NEAREST_NEIGHBORS 选项被设置为 8。
Delaunay 三角测量(自然相邻要素)
使用“Delaunay 三角测量”选项可构造相邻要素,方法是通过点要素或要素质心创建 Voronoi 三角形,使得每个点/质心都是三角形结点。由三角形的边连接的结点被视为相邻结点。使用 Delaunay 三角测量可确保每个要素至少具有一个相邻要素,即使数据包含岛和/或变化明显的要素密度。具有重合要素时,不要使用 Delaunay 三角测量选项。使用生成空间权重矩阵工具时该方法可用。
空间时间窗
使用此选项,可根据空间窗(固定距离)和时间窗(固定时间间隔)来定义要素的关系。当您使用生成空间权重矩阵工具创建空间权重矩阵文件时,此选项可用。选择 SPACE_TIME_WINDOW 时,必须同时指定日期/时间字段、日期/时间间隔类型(如 HOURS、DAYS 或 MONTHS)以及日期/时间间隔值。间隔值为整数。例如,如果选择 HOURS 作为时间间隔类型,3 作为间隔值,则两个要素的“日期/时间”字段中的值均处于对方的 3 小时内时,这两个要素将被视为相邻要素。凭借这种概念化,如果要素处于目标要素的指定距离和指定时间间隔内,则这些要素视为相邻要素。例如,如果要创建一个空间权重矩阵文件以便配合热点分析来确定空间-时间热点,则可以选择 SPACE_TIME_WINDOW 空间关系的概念化。更多详细信息,包括如何可视化结果,请参阅空间-时间分析。其他机会可用于帮助您在 3D 中可视化 netCDF 空间-时间立方体。
通过文件(用户定义的空间关系)获取空间权重
可使用生成空间权重矩阵工具或生成网络空间权重工具来创建存储要素相邻要素关系的文件。如果要使用根据网络数据集获得的行程时间或行程成本来定义空间关系,可使用生成网络空间权重工具创建空间权重矩阵文件,然后使用得到的 SWM 文件进行分析。如果要素的空间关系在表中定义,请使用生成空间权重矩阵工具将该表转换为空间权重矩阵 (.swm) 文件。该表中应该包括特定字段,以便使用 CONVERT_TABLE 选项获取 SWM 文件。您还可以提供定义自定义的空间关系的概念化的格式化 ASCII 文本文件的路径(例如基于空间交互)。
选择空间关系的概念化:最佳做法
对要素在空间中彼此交互方式构建的模型越逼真,结果就越准确。空间关系的概念化参数的选择应反映要分析的要素之间的固有关系。有时,您的选择还会受到数据特征的影响。
例如,反距离方法(INVERSE_DISTANCE、INVERSE_DISTANCE_SQUARED)最适合对连续数据,或最适合对符合此种情形的对象进行建模:两个要素在空间上越靠近,它们彼此交互/影响的可能性就越大。使用此空间概念化参数,每个要素都可能是其他各个要素的邻域,而对于大型数据集,这将涉及巨大的计算量。使用反距离概念化参数时,应始终尝试添加一个距离范围或距离阈值。这对于大型数据集尤其重要。如果将距离范围或距离阈值参数留空,系统将计算距离阈值,但这可能不是分析所需的最适当距离;默认的距离阈值是能够确保每个要素至少具有一个相邻要素的最小距离。
FIXED_DISTANCE_BAND 方法适用于处理点数据。 其为热点分析 (Getis-Ord Gi*) 工具采用的默认选项。在面的大小变化较大(例如,研究区域边界处的面较大而研究区域中心的面较小)而希望确保分析比例一致时,此选项对于面数据而言通常为不错的选择。有关帮助您为分析确定适当的距离范围值的相关策略,请参阅下面的选择固定距离。
ZONE_OF_INDIFFERENCE 概念化适用于以下情况:“固定距离”适合的情况,但对相邻要素关系添加明显的边界不是正确的数据表示。请切记,“无差别的区域”概念模型会将每个要素视为其他各个要素的相邻要素。因此,该选项不适合大型数据集,因为提供的距离范围或距离阈值值不会限制相邻要素数,而只是指定空间关系的强度在何处开始减小。
当面在大小和分布上类似并且空间关系是面的临近性的函数(这是指如果两个面共享一个边界,则它们之间的空间交互将增加)时,面邻接概念化(CONTIGUITY_EDGES_ONLY、CONTIGUITY_EDGES_CORNERS)非常有效。 选择面邻接概念化时,您几乎总要为具有行标准化参数的工具选择行标准化。
如果想要确保具有一个用于分析的最小相邻要素数,K_NEAREST_NEIGHBORS 选项非常有效。 特别是当与要素相关的值存在偏斜(不是正态分布)时,在至少有八个左右的相邻要素(这只是经验规则)的环境内评估各要素将十分重要。当数据的分布在研究区域上存在变化以致于某些要素远离其他所有要素时,该方法十分适用。但请注意,分析的空间环境会根据要素的稀疏程度/密集程度的变化而发生变化。当固定分析的比例不如固定相邻对象数目重要时,K 最近邻方法较适合。
有些分析者将 DELAUNAY_TRIANGULATION 视作可构建一组要素的自然相邻要素的方法。当数据包含岛屿面(未与其他面共享任何边界的孤立面),或者当要素的空间分布非常不均匀时,该方法是一个很好的选择。但是,具有重合要素时,不适合使用此方法。与 K 最近邻方法类似,Delaunay 三角测量可确保每个要素至少具有一个相邻要素,但是要使用数据本身的分布确定每个要素获得的相邻要素数。
SPACE_TIME_WINDOW 选项可以根据要素的空间和时态邻近性来定义要素的关系。 如果要识别空间-时间热点或构造成员关系通过空间和时间邻近性加以约束的分组,便可使用此选项。有关空间-时间分析的示例以及有效渲染由此类分析得出的结果所采取的策略,请参阅空间-时间分析。
对于某些应用程序,最好以行程时间或行程距离对空间交互进行建模。如果要对城市服务的访问性进行建模,例如要查找城市犯罪集中的地区,借助网络对空间关系进行建模是一个好办法。分析之前使用生成网络空间权重工具创建一个空间权重矩阵文件 (.swm);为空间关系的概念化值选择 GET_SPATIAL_WEIGHTS_FROM_FILE,然后,对于权重矩阵文件参数,提供所创建的 SWM 文件的完整路径。
如果没有适用于分析的空间关系的概念化参数的选项,您可以按照您所希望的要素与要素之间的关系创建一个 ASCII 文本文件或表,然后使用文本文件或表构建空间权重矩阵文件。如果上述其中一个选项接近预期,但还不是最佳选项,则可使用生成空间权重矩阵工具来创建一个基本 SWM 文件,然后编辑您的空间权重矩阵文件。
选择固定距离范围值
将所选的固定距离范围视为临时停留在每个要素上面的移动窗口,并在其相邻要素环境内查看该要素。以下几个原则可帮助您为分析确定适当的距离范围:
- 根据您所了解的空间过程(支持正在研究的现象的聚类)的地理范围来选择距离。通常,您不知道这方面的内容,但如果知道,应使用您掌握的知识选择距离值。例如,假设您知道上下班路程的平均通勤距离是 15 英里。使用 15 英里作为距离范围是研究通勤数据的一个较好策略。
- 使用足够大的距离范围确保所有要素都至少具有一个相邻要素,否则结果将无效。特别是当输入数据偏斜(将数据绘制为直方图时无法创建一个良好的钟形曲线)时,您会希望确保距离范围既不过小(大多数要素只有一个或两个相邻要素)也不过大(几个要素将其他所有要素作为相邻要素包括在内),因为过小或过大会使得到的 z 得分不够可靠。只要距离范围足以确保每个要素具有数个相邻要素(大约 8 个),就能够保证 z 得分是可靠的(即使存在偏斜数据)。如果创建过大的距离范围(其中要素包含数千个相邻要素),则即使没有任何要素将其他所有要素作为相邻要素包括在内,性能问题甚至潜在的内存限制均会导致出现问题。
- 有时,确保所有要素都至少具有一个相邻要素会导致部分要素的相邻要素达到数千个,因此不是理想结果。在某些要素为空间异常值时就会发生这种情况。要解决这个问题,为所有要素(空间异常值除外)确定合适的距离范围,并使用生成空间权重矩阵工具创建一个采用此距离的空间权重矩阵文件。但是,在运行“生成空间权重矩阵”工具时,需要在相邻要素的数目参数中指定相邻要素的最小值。示例:假设您正在使用人口普查区域数据评估洛杉矶县内人口获取健康食品的远近。已知 90% 以上的人口居住在距离购物场所三英里的范围内。如果分析人口普查区域数据,就会发现市区中心的调查对象(基于人口普查区域质心)平均距离为 1,000 米,而郊区的调查对象距离则超过 18,000 米。要确保每个要素至少具有一个相邻要素,则距离范围应大于 18,000 米,显然该分析(距离)级别不适用于您正在调查的问题。相应的解决方案是,使用生成空间权重矩阵工具为人口普查区域要素类创建一个空间权重矩阵文件。将阈值距离设置为 4800 米左右(约三英里),并设置相邻要素的数目参数的相邻要素最小值(比如 2)。以便将 4,800 米固定距离相邻要素应用于此距离范围内相邻要素不超过两个的要素外的所有要素。对于那些异常值要素(仅限于那些异常值要素),该距离将延伸至足以确保每个要素至少包括两个相邻要素。
- 使用可反映最大空间自相关的距离范围。当看到地表上的空间聚类时,您将看到正在进行的基础空间处理。此距离范围揭示最大聚类(通过增量空间自相关工具测量),是空间聚类过程最活跃或最明显的距离。运行增量空间自相关工具并留意生成的 z 得分达到峰值的位置。使用与分析的峰值相关的距离。
注:
输入的距离值应采用相同的单位,如地理处理环境输出坐标系所指定。
- 每个峰值都表示进行空间聚类过程显著的位置的距离。多个峰值是很常见的。与较大距离相关的峰值通常反映广泛的趋势(例如,广泛的东西趋势,其中西部是大热点,而东部则是大冷点);您通常会对与较小距离相关的峰值最感兴趣,通常为第一个峰值。
- 不显著的峰值通常意味着在各种空间比例有很多不同的空间过程在进行。您可能希望寻找其他条件以确定对分析使用哪个固定距离(可能是用于修复的最有效距离)。
- 如果 z 得分未出现峰值(也就是说它只是持续增加)并且您正在使用聚合数据(例如县),通常意味着聚合方案过于粗略;运行感兴趣的空间过程时所处的比例小于聚合单位的比例。如果可以移动到较小的分析比例(例如从县移动到普查区域),这样可能有助于查找峰值距离。如果正在处理点数据并且 z 得分未出现峰值,即意味着在多种空间比例下存在多种不同的空间处理过程,因此您可能需要使用不同的标准来确定分析中使用的固定距离。运行增量空间自相关工具时,还需要确保开始距离不要过大。
- 如果未指定开始距离,增量空间自相关工具将使用可确保所有要素至少具有一个相邻要素的距离。如果您的数据包含空间异常值,该距离对于分析可能过大,这可能是无法在输出报表文件中看到明显峰值的原因。解决方案是,针对暂时排除所有空间异常值的选择集运行“增量空间自相关”工具。如果排除异常值后出现峰值,则将该峰值距离应用于所有要素(包括空间异常值)的同时使用如上所述的策略,并强制每个要素至少包括一个或两个相邻要素。如果不确定哪些要素是空间异常值:
标识进行聚类过程最显著位置的距离。 - 不要总认为只有一个正确的距离范围。实际情况永远不会那么简单。很可能有多个/交互的空间过程推动了观察到的聚类。与其认为您需要一个距离范围,不如将模式分析工具作为在多种空间比例下浏览空间关系的有效方法。需要考虑到更改比例(更改距离范围值)时可能将会面对其他问题。假设要查看收入数据。使用小距离范围,您可以检查街区的收入模式,中比例距离可能反映社区或城市收入模式,而最大的距离范围将显示广泛的地方性的收入模式。
距离法
“空间统计”工具箱中的很多工具都在计算中使用距离。使用这些工具时您可以应用欧氏距离或曼哈顿距离。
- 欧氏距离按以下公式计算
D = sq root [(x1–x2)**2.0 + (y1–y2)**2.0]
其中 (x1,y1) 是点 A 的坐标,(x2,y2) 是点 B 的坐标,D 是点 A 和点 B 之间的直线距离。
- 曼哈顿距离按以下公式计算
D = abs(x1–x2) + abs(y1–y2)
其中 (x1,y1) 是点 A 的坐标,(x2,y2) 是点 B 的坐标,D 是点 A 和点 B 之间垂直之差与水平之差的和。如果限制为仅南北行驶和东西行驶,则该距离是您必须行驶的距离。当只能在某一街道网络中行驶并且实际的街道网络行驶成本不可用时,该方法通常比欧氏距离方法更合适。
如果您的输入要素没有投影(即坐标采用度、分、秒形式),或者输出坐标系设定为地理坐标系,或者您指定某输出要素类路径为具有地理坐标系空间参考的要素数据集,那么距离将采用弦测法计算,而距离法将不可用。使用弦距离测量法是因为此方法不仅计算速度快,而且提供真实测地线距离的良好估测,至少对于彼此 30 度以内的点是这样。弦距离以球体为基础,而不是以地球实际的扁椭圆体为基础。给定地球表面上的任意两点,两点之间的弦距离是从三维地球穿过然后连接该两点的一条线的长度。弦距离以米为单位输出。 如果您的研究区域超过 30 度,则请确保投影数据。测地线距离超过 30 度时,弦距离不是理想的估测方法。警告:
自身潜能(指定区域内权重的字段)
“空间统计”工具箱中的多个工具都允许您提供一个字段,表示要用于自身潜能的权重。自身潜能是要素与其自身之间的距离或权重。通常情况下,此权重为零,但在某些情况下,您可能要为每个要素指定其他固定值或不同的值。例如,如果基于各个人口普查区域之内和之间行驶的距离来执行空间关系的概念化,您可能会决定根据面大小对自身潜能进行建模以反映区域内的平均行程成本:
dii = 0.5*[(Ai / π)**0.5]
其中 dii 是与面要素i的区域内行程相关的行程成本,而 Ai 是与面要素i相关的面积。
标准化
当要素的分布由于采样设计或施加的聚合方案而可能偏离时,建议使用行标准化。选择行标准化后,每个权重都会除以行的和(所有相邻要素的权重和)。行标准化的权重通常与固定距离相邻要素结合使用,并且几乎总是用于基于面邻接的相邻要素。这样可减少因为要素具有不同数量的相邻要素而产生的偏离。行标准化将换算所有权重,使它们在 0 和 1 之间,从而创建相对(而不是绝对)权重方案。每当要处理表示行政边界的面要素时,您都可能会希望选择“行标准化”选项。
示例:
- 假设您拥有“全套”犯罪事件。在部分研究区域,因为犯罪案件多发而具有大量的点。而其他一些区域,因为犯罪率低而具有极少的点。点的密度恰好反映了(具有代表性)您试图揭示的内容:犯罪空间模式。可能不需要对空间权重执行“行标准化”。
- 假设您在采集土壤样本。由于某些原因(天气很好或正好位于不需要翻越障碍、穿越沼泽或向山顶跋涉的位置),您在某些研究区域采集了较多的样本,而在其他区域获取的样本极少。换句话说,点的密度并不是严格按计划的随机采样获得的结果;可能因为您自身的原因造成一些偏差。此外,点较多的区域不一定就能反映您所分析数据的基础空间分布。为了将样本采集过程中可能引入的偏差降至最低,需要对您的空间权重执行“行标准化”。进行行标准化时,对于某个要素具有两个相邻要素而另一个却具有 18 个相邻要素的情况不会对结果产生大的影响;所有权重的总和为 1。
- 只要聚合数据,就会对数据施加一个结构。该结构基本不能反映您正在分析的数据,也无法给你一个满意的答案。例如,人口普查面(如人口普查区域)是围绕人口来设计的,即使您的分析与人口问题相关,仍需要对您的权重执行行标准化,因为这些面仅代表多种不同描绘方式的一种。对于面数据,几乎总是需要对您的空间权重执行行标准化。
距离范围或距离阈值
使用距离范围或距离阈值可设置大多数空间关系的概念化(例如,INVERSE_DISTANCE 和 FIXED_DISTANCE_BAND)的分析比例。它是一个表示中断距离的正数值。将在对目标要素的分析中忽略该要素指定中断之外的要素。但是,使用 ZONE_OF_INDIFFERENCE 时,指定距离之外的要素的影响会随邻近程度的减小而变弱,而距离阈值之内的影响则视为是相等的。
选择合适的距离十分重要。某些空间统计要求每个要素至少具有一个相邻要素才能保证分析的可靠性。如果为距离范围或距离阈值设置的值过小(以致某些要素没有相邻要素),会弹出一条警告消息,建议您使用一个更大的距离值重新尝试。计算近邻点距离工具将针对指定数目的近邻计算最小距离、平均距离和最大距离,并且帮助您确定可用于分析的适当距离范围值。有关附加原则,另请参阅选择固定距离范围值。
当未指定任何值时,将计算默认阈值距离。下表说明了空间关系的概念化参数的不同选项对于三种可能的输入类型(负值无效)的行为方式。
反距离、反距离平方 | 固定距离范围、无差别的区域 | 面邻接、Delaunay 三角测量、K 最近邻 | |
0 | 未应用任何阈值或中断;每个要素都是其他任一要素的相邻要素。 | 无效。将生成运行时错误。 | 忽略。 |
空 | 将计算默认距离。该默认距离将是确保每个要素至少具有一个近邻的最小距离。 | 将计算默认距离。该默认距离将是确保每个要素至少具有一个近邻的最小距离。 | 忽略。 |
正数 | 指定的非零正值将用作中断距离;只有当要素间的距离小于此值彼此才存在相邻关系。 | 对于“固定距离范围”,只有彼此间距离处于此指定中断范围内的要素才是相邻要素。对于“无差别的区域”,位于彼此的指定中断范围内的要素是相邻要素;位于彼此中断之外的要素也是相邻要素,但随着距离的增加,分配到的权重/影响将越来越小。 | 忽略。 |
相邻要素的数目
指定一个正整数以表示在分析中,每个目标要素要包含的相邻要素的数量。如果所选空间关系的概念化参数的值为 K 最近邻,则会在最近的 K 个要素(其中 K 是指定的相邻要素的数目)环境内计算每个目标要素。对于“反距离”或“固定距离范围”,运行生成空间权重矩阵工具时,为相邻要素的数目参数指定一个值可确保每个要素都具有最少数量的 K 个近邻。对于“面邻接”法,任何未指定相邻要素的数目的要素均将根据要素质心邻近性获得附加相邻要素。对于生成网络空间权重工具,指定最大相邻要素数参数值可以确保要素数目不超过指定的值。对于分组分析工具,指定相邻要素的数目的值可以提高各组内要素的邻近性。例如,指定 6 个相邻要素,可将组限制在组内要素之间至少共享 6 个最近相邻要素之一的那些组。
权重矩阵文件
多个工具允许您通过提供空间权重矩阵文件的路径来定义各个要素之间的空间关系。空间权重是反映数据集中每个要素和其他任何一个要素之间的距离、时间或其他成本的数字。空间权重矩阵文件可通过生成空间权重矩阵工具或生成网络空间权重工具进行创建,也可以是简单的 ASCII 文件。
当空间权重矩阵文件是简单的 ASCII 文本文件时,第一行应该是唯一 ID 字段的名称。这使您可以在生成该文件时灵活地使用数据集中的任意数字字段作为 ID;但是,ID 字段类型必须是整型(长整型或短整型)并且每个要素都必须具有唯一值。第一行之后,该空间权重文件应被格式化为三列:
- 起始要素 ID
- 终止要素 ID
- 权重
例如,假设有三个加油站。要用作 ID 字段的字段称为 StationID,要素 ID 为 1、2 和 3。您想要使用行程时间(以分钟为单位)对这三个加油站之间的空间关系进行建模。您可以创建如下所示的 ASCII 文件:
通常,权重在表示距离或时间时会被取倒数(例如,当距离为 10 英里或 10 分钟时,权重为 1/10),因此较近的要素比较远的要素具有更大的权重。从上述权重中注意到加油站 1 距加油站 2 为 10 分钟。还可以看出本示例中的行程时间不是对称的(从加油站 1 行驶到加油站 3 为 7 分钟,但从加油站 3 行驶到加油站 1 只有 6 分钟)。请注意,加油站 1 与其自身之间的权重为 0,并且没有加油站 2 到其自身的条目。缺失的条目都被假定具有权重 0。
为空间权重矩阵文件输入值顶多算是一项单调乏味的工作,即使对于小数据集也是如此。最好使用生成空间权重矩阵工具或编写一个快速的 Python 脚本来为您执行此任务。
空间权重矩阵文件 (.swm)
生成空间权重矩阵或生成网络空间权重工具将创建空间权重矩阵文件 (.swm),该文件根据指定的参数定义数据集中所有要素之间的空间关系。此文件为二进制文件格式,因此无法直接查看此文件中的值。要查看或编辑 SWM 文件中的要素关系,可使用将空间权重矩阵转换为表工具。
将要素之间的空间关系存储于表中时,可使用生成空间权重矩阵工具将该表转换为空间权重矩阵文件 (.swm)。该表将需要以下字段:
字段名 | 说明 |
---|---|
<唯一 ID 字段名> | 存在于输入要素类中的一个整型字段,带有每个要素的唯一 ID。这是起始要素 ID。 |
NID | 一个包含相邻要素 ID 的整型字段。这是终止要素 ID。 |
WEIGHT | 这是量化起始要素和终止要素之间空间关系的数字权重。较大的值表示两个要素之间具有较大的权重和较强的影响或交互。 |
共享空间权重矩阵文件
生成空间权重矩阵工具和生成网络空间权重工具的输出是一个 SWM 文件。该文件在创建时与输入要素类、唯一 ID 字段和输出坐标系设置绑定到一起。其他用户通过使用您的 SWM 文件可以原样复制您为分析而定义的空间关系,只要输入要素类相同或者要素类中所有要素或要素子集与匹配的唯一 ID 字段关联即可。特别是当您要与其他人共享 SWM 文件时,请避免输出坐标系与空间参考(与输入要素类关联)不同的情况发生。一种较好的策略是对输入要素类进行投影,然后在创建空间权重矩阵文件之前将输出坐标系设置为“与输入要素类相同”。