您好,欢迎来到99网。
搜索
您的当前位置:首页第三章 多元统计分析(3)

第三章 多元统计分析(3)

来源:99网
研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

第三章 多元统计分析

§4 聚类分析

分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。

1 聚类的分类

分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。

表3-3-1 各种生物在分类学上的位置举例

位置 界 门 亚门 纲 目 科 属 种

白菜

植物界

种子植物门 被子植物亚门 双子叶植物纲 十字花目 十字花科 油菜属 白菜

动物界

脊索动物门 脊椎动物亚门 哺乳动物纲 食肉目 猫科 猫属 虎

当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。

早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元

76

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

统计分析技术。根据分类对象的不同,聚类分析又可以分为两类:一是在变量空间中根据变量特征或者指标性质对样本进行分类,这叫做Q型聚类分析;二是在样本空间中根据变量在样本上的观测值对变量进行分类,叫做R型距离分析。我们着重讲述的是对样本分类,即Q型距离分析。此外,由于现实世界的事物很难做到一分为二:许多测度是模糊的,因此产生了模糊聚类技术,基本思路与我们学习的统计分类一致(图3-3-1)。

定性分类模糊聚类关于分类方法的分类 定量分类Q型聚类分析——对样本分类数字分类R型聚类分析——对变量分类图3-3-1 关于分类的分类

在地理学中,分类一般涉及到地域,基于地域的分类又可以分为两类,即同域分类和异域分类。一般意义的分类是同域分类:对同一个地域系统的要素进行分类;但有时候需要进行异域分类:对不同地域系统的要素进行分类。具体说明如下:

同域分类:

经济建设与濒危生物保护:例如公路建设,不仅要考虑城市之间以及城乡联系,还要考虑文物保护、濒危物种的保护——主要是保护生物『基因库』。

考察某种濒危物种,调查其生态环境的各种参数(变量)→分区(样本)→绘图→调查→落实→范围确定……→提交给交通部。

异域分类:

引进日本福冈甜桔,可供选择的引进地点有:合肥、武汉、长沙、桂林、温州、成都……。

与甜桔生活有关的分析变量包括:年平均气温,年平均降雨量,年日照时数,年极端最低温,一月份平均气温。

利用上述变量,将日本福冈与候选城市放到一起聚类,就是所谓异域聚类。

人们采用模糊数学中的相似优先比得到如下结果:长沙,温州,成都,武汉,桂林,合肥。我们采用异域聚类得到结果如下图(图3-3-2,由SPSS给出):可以选择的顺序依次是:长沙,成都,温州,桂林,武汉,合肥。可见,两种分析方法的结论是一样的:优先选择的地点是长沙,不宜选择的地点是合肥。

图3-3-2 异域聚类分析结果一例

3-13 基于相似系数的异域聚类结果:长沙,成都,温州,桂林,合肥,武汉

77

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

在多元统计学中,聚类分析又叫群分析,乃是研究样本或指标的分类问题的一种多元统计方法。所谓类,通俗地讲,就是相似元素的集合。聚类方法有包括如下种类:系统聚类法,有序样品法,模糊聚类法,图论聚类法,聚类预报法……。

2 距离与相似系数

聚类分析是根据相似性和差异性来进行的,相似性可以借助相似系数之类表征,差异性则可以通过距离反映。广义地将,距离和相似性是同一类别的数学问题。广义距离,有各种各样的定义,不同的距离有不同的优点和缺点。我们可以更加聚类分析的目的或者研究对象的特征选择距离,也可以自行定义一种距离。需要明确的是,定义任何一种距离,都不得违背距离公理。 ⒈ 距离公理

设x1、x2、…、xn为n个样本,第i个样本xi与第j个样本xj之间建立一个函数关系式dij=d(xi, xj),如果它满足如下条件,则称dij为样本xi与xj之间的距离:

① 非负性:dij0对所有的i、j成立; ② 规范性:dij0当且仅当xixj; ③ 对称性:dijdji对所有的i、j成立;

④ 三点不等式,在数学上叫做Cauchy不等式:dijdikdkj对所有的i、j、k成立。 距离的大小可以反映样本之间的差异程度。 ⒉ 常见距离

⑴ 欧式距离(Euclid距离)

dij((xk1mikxjk)2)1/2. (3-3-1)

下面以一个最简单的实例进行说明。已知三个城市的三项指标,计算它们的欧式距离(表3-2-2)。

表3-3-2 甲乙丙三城市的三个指标

城市 城市甲(A) 城市乙(B) 城市丙(C) 方 差

非农业人口 160 110 90 866.667

工业总产值 60 43 35 108.667

建成区面积 115 93 75 267.556

根据公式(3-3-1),甲、乙两城市的欧式距离为(注意,这不是地理或者交通意义的距离):

dAB(160110)2(6043)2(11593)250217222257.210. (3-3-1)

欧式距离的优点:几何意义明确,简单,容易掌握,由于中学数学就已初步接触,数学知识不多的人也可以把握它的基本含义。

缺点:从统计学的角度看,使用欧式距离要求一个向量的n个分量不相关,且具有相当的方差,或者说各个坐标对欧式距离的贡献同等且变差大小相同,此时使用欧式距离才合适,且效果良好,否则就不能如实反映情况且容易导致错误的结论。因此需要对坐标加权,化为统计距离(参见后面的精度加权距离)。

78

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

有时采用欧式距离平方(squared Euclid distance):

2dij(xk1mikxjk)2, (3-3-2)

⑵ 明氏距离(或译“闵氏距离”,Minkovski,Minkowski距离)

设xi、xj均均为m为向量,且

xj1xi1xxj2i2xi, xj, (i1,2,,n), (3-3-4)

ximxjm则称

mdqij(q)[x1/qikxjk], (i,j1,2,,n) k1 ① 当q=1时,得绝对距离(Block)

dij(1)mxikxjk. k1对于前面的例子,绝对距离为

dAB(1)501722. ② 当q=2时,得欧式距离

md2ij(2)(xikx2jk)1/, k1 ③ 当q→∞时,得切比雪夫距离(Chebychev距离)。

明氏距离的有缺点如下:

优点:人们使用较多,较熟悉,易于理解。

缺点:a 受指标量纲的影响;b 没有考虑指标之间的相关性。

⑶ B模距离

对于任意的正定矩阵B,由下式确定的距离称为B模距离

dij(xTixj)B(xix/2j)1,(i1,2,,n) ① 当B=I(单位矩阵)时,dij为欧式距离。给定两个向量

xi1xj1xxi2, xxj2ij, (i1,2,,n, k1,2,,m) ximxjm显然

79

(3-3-5)

(3-3-6)

(3-3-7)

(3-3-8)

(3-3-9)

(3-3-10)

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

xi1xj1xxi2j2. (3-3-11) (xixj)xximjm从而

2dij(xixj)TI(xixj)xi1xj1xi2xj2ximxjmxi1xj1xxj2i2. (3-3-12)

ximxjm显然这正是欧式距离。对于前面的例子,我们有

50100 (xixj)17, I010, dAB57.210. 22001② 当Bdiag(12,12,,1。

122),为精度加权距离。这里2kvar(xik)m下面以三样本为例说明:

d21/2100xi1xj1ijxi1xj1xi2xj2xi3xj301/220xi2xj2

001/23xi3xj3(xi1x2j1)xi2xj2)2xj3)22(12(xi3 22. 3对于前面表3-3-2中的例子,容易得到

d502866.667172AB108.667222267.5562.8852.6601.8092.71166. ③ 当B[cov(x)]11时,为马氏距离(Mahalanobis距离)。

设∑表示协方差阵

ijmm. 其中

1nijn1(xixi)(xjxj), (i,j1,2,,m) 1这里

1n1nxinxi, xjnxj. 11

80

(3-3-13)

(3-3-14)

(3-3-15)

(3-3-16)

(3-3-17)

(3-3-18)

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

如果逆矩阵∑-1存在,则两个样本之间的马氏距离可由下式定义

2dij(xixj)T1(xixj); (3-3-19)

样本X到总体G的马氏距离为

d(2X,G)(x)T1(x). (3-3-20)

式中μ为总体的均值向量。

对于前面的例子,协方差矩阵为:

表3-3-3 甲乙丙三城市的协方差

矩阵类型 变量 人口 产值 面积 即有

人口 协方差矩阵 产值 面积 人口 协差阵的逆矩阵 产值 面积 866.667 306.667 473.333 -1.724E+13 6.099E+13 -7.955E+12 306.667 108.667 168.667 6.099E+13 -2.158E+14 2.815E+13 473.333 168.667 267.556 -7.955E+12 2.815E+13 -3.671E+12 866.667306.667473.333,

306.667108.667168.667473.333168.667267.556逆矩阵为

11.724E136.099E137.955E12.

6.099E132.158E142.815E137.955E122.815E133.671E12于是马氏距离为

dAB505.6875. 50172211722这是一个复数的距离。由此可见,马氏距离不是在任何时候都可以在实数域取得的。

马氏距离具有如下优点:a 排除了指标间的相关性干扰;b 不受指标量纲的影响;c 对原数据进行线性变换之后,马氏距离不变。

⑷ 兰氏距离(Canberra距离)

由Lance和Williams最早提出,定义如下:

1mxixjdij. (3-3-21)

m1xixj对于前面的例子,我们有

(xixj)501722, (xixj)270103208

于是得到兰氏距离

81

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

dAB1501722()0.340. (3-3-22) 3270103208兰氏距离的有缺点如下:

优点:有助于克服各指标间的量纲的影响;

缺点:a 仅适用于xij>0的情况;b 没有考虑指标之间的相关性。

⑸ 自定义距离(customized distance)

在一些统计软件如SPSS中,可以根据研究的实际需要自己定义一个距离,定义的依据当然是距离公理,一般的自定义距离公式如下:

dij(q)[xikxjk]1/r, (i,j1,2,,n) (3-3-23)

k1mp在统计软件中,允许适当地自主选择定义距离的参数,例如在SPSS中,选择自定义距离时,默认的幂(power, p)和根(root, r)为p=2,r=2,此时相当于欧式距离。但用户可以在1~4之间选择p值和r值,如取p=3,r=4,从而定义自己的距离,如何定义取决研究问题的特性和需要,这要求对距离概念具有较深的理解,否则还是采用比较熟悉的距离公式。

3 距离矩阵

设样本xi与xj之间的距离为dij,可得距离矩阵

d11dD21dn1d12d22dn2d1nd2n. (3-3-24) dnn距离dij值越小,xi与xj越接近。例如,不管采用何种距离,前面三个城市之间两两距离求出之后,都可以构造一个距离矩阵

dAADdBAdCAdABdBBdCBdAC0ddBCBAdCCdCAdAB0dCBdACdBC. (3-3-25) 0

4 相似系数

相似系数包括两种相似的表示方法,即夹角余弦和相似系数。分别说明如下: ⑴ 夹角余弦(Cosin)

cosijxxij1mxxij11mm, (1cosij1). (3-3-26)

⑵ 相似系数(Pearson correlation)

82

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

Sij(xx)(xxiij1m2miijmj), (1Sij1) (3-3-27)

j)2(xx)(xx11当数据标准化以后,就有

Sijcosij. (3-3-28)

3 系统聚类的八种方法

聚类分析不仅要甄别距离,而且要遴选方法。不同距离与方法的组合可以得到许多聚类

途径。以SPSS软件为例,一共给了8种距离,7种方法,因此至少有7×8=56距离方式——考虑到自定义距离,则聚类途径还要多。但是,考虑到我们的研究对象的性质和聚类目标之后,可供选择的途径并不太多。这就要求我们熟悉各种的距离的有缺点和聚类方法的基本思路。

⑴ 最短距离法(Nearest neighbor)

考虑n个样本构成的距离矩阵,定义Gi与Gj之间的距离为两类最近样品的距离,即

DijXiGi,XjGjmindij. (3-3-29)

现在设Gp与Gq合并为一个新类记为Gr,则任意一类Gk与Gr的距离为

DkrXiGi,XjGjmindijmin(XiGk,XjXpmindij,XiGk,XjGqmindij)min(Dkp,Dkq). (3-3-30)

下面用实例说明最短距离法聚类的一般步骤和方法。例子是引进日本福冈甜桔,候选地点为:合肥、武汉、长沙、桂林、温州、成都……;变量有5个:年平均气温,年平均降雨量,年日照时数,年极端最低温,一月份平均气温。原始数据见下表(表3-3-4):

表3-3-4 七个地点五种变量的数据

变量 年平均气温 年平均降雨量 年日照时数 年极端最低气温 一月份平均气温

福岗 16.2 1492 2000 -8.2 6.2

合肥 15.7 970 2209 -20.6 1.9

武汉 16.3 1260 2085 -17.3 2.8

长沙 17.2 1422 1726 -9.5 4.6

桂林 18.8 1874 1709 -4.9 8

温州 17.9 1698 1848 -4.5 7.5

成都 16.3 976 1239 -4.6 5.6

来源:贺仲雄,王伟.决策科学:从最优到满意.重庆:重庆出版社,1988,p190。作者采用模糊数学中的“相似优先法”处理这个问题,我们采用距离处理同一组数据,并与相似优先法的结果比较。

采用最短距离法聚类的过程如下:

① 计算样本之间两两距离,建立欧式距离矩阵D。由于对称性,可以只写出下三角部分。对样本进行编号,记为1~7:

83

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

Case 1:福岗 2:合肥 0 315.42 661.61 1033.20 812.77 970.16 3:武汉 4:长沙 5:桂林 6:温州 7:成都 1:福岗 0 2:合肥 562.44 3:武汉 247.27 4:长沙 282.81 5:桂林 480.24 6:温州 256.04 7:成都 919.45 0 393.94 720.11 498.20 2.49 0 452.36 301.82 660.39 0 224.27 1013.57 0 944.55 0

② 找出非对角线元素的最小值,d56=224.27,将第5个样本与第6个样本合并。首先合并第5列和第6列,保留最短距离944.55。合并方法可以在Word的表格中采用合并单元格的方式。 Case 1:福岗 2:合肥 3:武汉 4:长沙 5:桂林 6:温州 7:成都

然后合并第5行和第6行,原则依然是“两数相遇取其短”。 Case 1:福岗 2:合肥 3:武汉 4:长沙 5:桂林 6:温州 7:成都 1:福岗 0 562.44 247.27 282.81 480.24 2:合肥 0 315.42 661.61 1033.20 3:武汉 0 393.94 720.11 4:长沙 0 452.36 5:桂林 0 224.27 1013.57 6:温州 0 7:成都 0 1:福岗 0 562.44 247.27 282.81 2:合肥 0 315.42 661.61 1033.20 3:武汉 0 393.94 720.11 4:长沙 0 452.36 5:桂林 0 224.27 1013.57 6:温州 0 7:成都 0 480.24 256.04 919.45 812.77 970.16 498.20 2.49 301.82 660.39 944.55 256.04 919.45 812.77 970.16 498.20 2.49 301.82 660.39 944.55

将合并的结果记为第8类,见下表: Case 1:福岗 2:合肥 3:武汉 4:长沙 8:桂林 温州 7:成都

1:福岗 0 562.44 247.27 2:合肥 0 315.42 661.61 812.77 970.16 3:武汉 0 393.94 498.20 4:长沙 0 301.82 660.39 8:桂林,温州 0 944.55 7:成都 0 282.81 256.04 919.45 2.49

84

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

③ 在前述合并结果中找出对角线以外的最小距离,得到d13=247.27。然后重复上述合并过程。为了直观,首先将第3列剪贴到第2列的后面: Case 1:福岗 3:武汉 2:合肥 4:长沙 8:桂林 温州 7:成都 将对角线以上的元素剪贴到对角线下对称的位置,然后合并列。为直观,不妨抹去较大的数: Case 1:福岗 3:武汉 2:合肥 4:长沙 8:桂林 温州 7:成都 1:福岗 0 3:武汉 0 2:合肥 0 661.61 812.77 970.16 4:长沙 0 301.82 660.39 8:桂林,温州 0 944.55 7:成都 0 1:福岗 0 247.27 562.44 3:武汉 0 393.94 498.20 2:合肥 0 661.61 812.77 970.16 4:长沙 0 301.82 660.39 8:桂林,温州 0 944.55 7:成都 0 (315.42) 282.81 256.04 919.45 2.49 315.42 282.81 256.04 2.49

逐行按列合并单元格: Case 1:福岗 3:武汉 2:合肥 4:长沙 8:桂林 温州 7:成都 1:福岗,3:武汉 0 0 2:合肥 0 661.61 812.77 970.16 4:长沙 0 301.82 660.39 8:桂林,温州 0 944.55 7:成都 0 315.42 282.81 256.04 2.49

逐列按行合并单元格,将合并结果记为第9类: Case 9:福岗,武汉 2:合肥 0 661.61 812.77 970.16 4:长沙 0 301.82 660.39 8:桂林,温州 0 944.55 7:成都 0 9:福岗, 武汉 0 2:合肥 4:长沙 8:桂林 温州 7:成都

315.42 282.81 256.04 2.49

85

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

④ 在第二次合并的结果中找到最小距离d=256.04,重复前述合并过程。为了直观,首先将第8列剪贴到第9列后面,然后将第8行剪贴到第9行的后面: Case 9:福岗,武汉 8:桂林,温州 0 944.55 2:合肥 4:长沙 7:成都 9:福岗, 武汉 0 8:桂林, 温州 256.04 2:合肥 4:长沙 7:成都

将出现在对角线以上的数据剪贴到对角线一线对应的单元格中: Case 9:福岗,武汉 8:桂林,温州 0 812.77 301.82 944.55 2:合肥 0 661.61 970.16 4:长沙 0 660.39 7:成都 0 9:福岗, 武汉 0 8:桂林, 温州 256.04 2:合肥 4:长沙 7:成都

逐行按列合并单元格: Case 9:福岗,武汉;8:桂林,温州 2:合肥 0 661.61 970.16 4:长沙 0 660.39 7:成都 0 9:福岗, 武汉 0 8:桂林, 温州 0 2:合肥 4:长沙 7:成都

逐列按行合并单元格,将合并结果记为第10类: Case 9:福岗, 10: 武汉; 8:桂林, 温州 2:合肥 4:长沙 7:成都

10: 9:福岗,武汉;8:桂林,温州 2:合肥 4:长沙 7:成都 (812.77) (301.82) 0 661.61 970.16 0 660.39 0 315.42 282.81 2.49 315.42 282.81 2.49 315.42 282.81 2.49 0 0 661.61 970.16 0 660.39 0 315.42 282.81 2.49

86

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

⑤ 在第三步合并的结果中,找到最小距离d4,10=282.81,然后重复上述合并过程。首先将第4行第4列剪贴到第10行第10列之下(后): Case 9:福岗, 10: 武汉 8:桂林, 温州 4:长沙 2:合肥 7:成都

将对角线以上的数据661.61剪贴到对角线以下对应的位置: Case 9:福岗, 10: 武汉; 8:桂林, 温州 4:长沙 2:合肥 7:成都

先合并列,再合并行,将结果记为第11类: Case 9:福岗 11: 武汉 8:桂林 10: 温州 4:长沙 2:合肥 7:成都 11: 10: 9:福岗,武汉;8:桂林,温州;4:长沙 2:合肥 7:成都 10: 9:福岗,武汉;8:桂林,温州 4:长沙 2:合肥 7:成都 10: 9:福岗,武汉;8:桂林,温州 4:长沙 2:合肥 7:成都 0 282.81 0 660.39 0 970.16 0 (661.61) 315.42 2.49 0 282.81 0 661.61 0 970.16 0 315.42 2.49 660.39 0 315.42 0 970.16 0 660.39

⑥ 在第四步合并的结果中,找到最小距离d2,11=315.42,然后重复上述合并过程。先合并列,后合并行,将结果记为第12类: Case 9:福岗 11: 武汉 12:8:桂林 10: 温州 4:长沙 2:合肥 7:成都 12: 11: 10: 9:福岗,武汉;8:桂林,温州;4:长沙;2:合肥 7:成都 0 660.39 87

0

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

⑦ 最后一步合并,非常明显:将第7类成都合并到前述结果中,记为第13类: Case 9:福岗 11: 武汉 12:8:桂林 10: 温州 4:长沙 13:2:合肥 7:成都 13: 12: 11: 10: 9:福岗,武汉;8:桂林,温州;4:长沙;2:合肥;7:成都 0

⑧ 总结合并的过程及其对应的最小距离:

表3-3-5 最小距离法聚类过程总结

步骤 距离 合并的样本 第一步 224.27 8:桂林,温州 第二步 247.27 9:福冈,武汉 第三步 256.04 10:桂林,温州;福冈,武汉 第三步 282.81 第五步 315.42 第六步 660.39

根据总结的步骤绘出聚类结果的谱系图。下图由Matlab给出(图3-3-3):

11:桂林,温州;福冈,武汉;长沙 12:桂林,温州;福冈,武汉;长沙;合肥 13:桂林,温州;福冈,武汉;长沙;合肥;成都 6005004003002001000桂桂桂桂 桂桂桂桂桂桂桂桂桂桂

图3-3-3 基于欧式距离和最短距离法的聚类谱系图

⑵ 最长距离法(Furthest neighbor)

考虑n个样本构成的距离矩阵,定义Gi与Gj之间的距离为两类最近样品的距离,即

88

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

DijXiGi,XjGjmaxdij. (3-3-31)

现在设Gp与Gq合并为一个新类记为Gr,则任意一类Gk与Gr的距离为

DkrXiGi,XjGjmaxdijmax(XiGk,XjXpmaxdij,XiGk,XjGqmaxdij)max(Dkp,Dkq). (3-3-32)

仍用前例说明利用最长距离法聚类的一般步骤和方法。

在距离矩阵中,找出非对角线元素的最小值,d56=224.27,将第5个样本与第6个样本合并。 Case 1:福岗 2:合肥 3:武汉 4:长沙 5:桂林 6:温州 7:成都 1:福岗 0 562.44 247.27 282.81 480.24 256.04 919.45 2:合肥 0 315.42 661.61 1033.20 812.77 970.16 3:武汉 0 393.94 720.11 498.20 2.49 4:长沙 0 452.36 301.82 660.39 5:桂林 0 224.27 6:温州 0 944.55 7:成都 0 1013.57

首先合并第5列和第6列,保留最长距离1013.57。 Case 1:福岗 2:合肥 3:武汉 4:长沙 5:桂林 6:温州 7:成都 1:福岗 0 562.44 247.27 282.81 2:合肥 0 315.42 661.61 3:武汉 0 393.94 4:长沙 0 8:桂林,温州 0 0 1013.57 7:成都 0 480.24 256.04 919.45 1033.20 812.77 970.16 720.11 498.20 2.49 452.36 301.82 660.39

然后合并第5行和第6行,保留最长距离。将合并结果记为第8类: Case 1:福岗 2:合肥 3:武汉 4:长沙 8:桂林 温州 7:成都

后面的过程与最短距离法完全一样,只不过是每次保留较长距离,即合并单元格时,遵循“两数相遇取其大”的原则。最后可得距离谱系图如下(图3-3-4):

1:福岗 0 562.44 247.27 2:合肥 0 315.42 661.61 3:武汉 0 393.94 4:长沙 0 8:桂林,温州 0 944.55 7:成都 0 282.81 480.24 919.45 1033.20 970.16 720.11 2.49 452.36 660.39

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

10009008007006005004003002001000桂桂桂桂桂桂桂桂桂桂桂桂桂桂

图3-3-4 基于欧式距离和最长距离法的聚类结果

对比可知,对于本例而言,基于最短距离法与最长距离法的聚类结果完全一样。但它们给出的结果与基于模糊数学相似优先法的结果相差较远。实际上,但我们采用相似系数代替距离,而聚类方法采用最短距离法时,由SPSS给出聚类谱系图如下(图3-3-5)。显然,这正是我们在本节开头给出的一种结果(图3-3-1):这时与相似优先法的结论基本一致。

图3-3-4 基于相似系数和最短距离法的聚类结果

⑶ 其它方法

其它的集中聚类方法包括:① 中间距离法(Median clustering);④ 重心法(Centroid clustering);⑤ 类平均法(Between-groups linkage);⑥ 可变类平均法;⑦可变法;⑧ 离差平方和法。限于篇幅和时间,不再一一讲述。大家很容易根据前面几种方法举一反三,触类旁通。

90

研究生地理数学方法(1) 第三章 多元统计分析(Part 3)

参考文献

1. 矫希国,孙凤兴,等编. 多元统计分析方法. 长春:吉林大学出版社,1993

2. 任若恩,王惠文著.多元统计数据分析——理论、方法、实例.北京:国防工业出版社,

1997

3. 于秀林,任雪松编著.多元统计分析. 北京:中国统计出版社,1999

4. 张超,杨秉赓.计量地理学基础(第1\\2版).北京:高等教育出版社,1985\\2002 5. 施妙根,顾丽珍.科学和工程计算基础.北京:清华大学出版社,1999\\2002 6. 贺仲雄,王伟.决策科学:从最优到满意.重庆:重庆出版社,1988

91

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 99spj.com 版权所有 湘ICP备2022005869号-5

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务