聚类分析实验心得体会8篇聚类分析实验心得体会 标准文档 聚类分析学习体会 聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类下面是小编为大家整理的聚类分析实验心得体会8篇,供大家参考。
篇一:聚类分析实验心得体会
标准文档
聚类分析学习体会
聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。
聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。
1.聚类统计量在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学等。⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。1.1.距离1.数据矩阵
文案大全
标准文档
设xij为第i个样品的第j个指标,数据矩阵如下表
表1数据矩阵
变量
样品
x1
x2
…
xp
1
x11
2x21
n
xn1
x12
…
x1p
x22
…
x2p
xn2
…
xnp
在上表中,每个样品有p个变量,故每个样品都可以看成是Rp中的一个点,
n个样品就是Rp中的n个点。在Rp中需定义某种距离,第i个样品与第j个样品
之间的距离记为dij,在聚类过程中,相距较近的点倾向于归为一类,相距较远
的点应归属不同的类。所定义的距离dij一般应满足如下四个条件:
⑴dij0,对一切i,j;且d(xi,xj)0当且仅当xixj
⑵dijdji,对一切i,j;
⑶dijdikdkj,对一切i,j,k2.定量变量的常用的距离对于定量变量,常用的距离有以下几种:⑴闵科夫斯基(Minkowski)距离
p
dij(q)[
1
xikxjkq]q
k1
这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:
p
1)当q1时,dij(1)xikxjk称为绝对值距离,常被形象地称为“城市k1
街区”距离;
文案大全
标准文档
p
2)当q2时,dij(2)[
1
xik
xjk
2
]2
,称为欧氏距离,这是聚类分析中最
k1
常用的距离;
3)当
q
时,
dij
()
max
1kp
xik
xjk
,称为切比雪夫距离。
dij(q)在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的
观测单位有关,另一方面它没有考虑指标间的相关性。
当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据
计算距离;最常用的标准化处理是:
令
xij
xij
sj
xj
其中xj
1n
ni1
xij
为第
j个变量的样本均值,sj
1n1
n
(xij
i1
xj)2为第
j个
变量的样本方差。
⑵兰氏(Lance和Williams)距离
当xij0(i1,2,,n;j1,2,,p)时,第i个样品与第j个样品间的兰氏距离为
p
dij(L)
k1
xikxik
xjkxjk
这个距离与各变量的单位无关,但没有考虑指标间的相关性。
⑶马氏距离(Mahalanobis)距离
第i个样品与第j个样品间的马氏距离为
dij(M)(xixj)'S1(xixj)其中xi(xi1,xi2,,xip)',xj(xj1,xj2,xjp),S为样品协方差矩阵。
使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。
文案大全
标准文档
⑷斜交空间距离第i个样品与第j个样品间的斜交空间距离定义为
d
ij
[1p2
pk1
p
(xik
l1
xjk)(xil
1
xjl)rkl]2
其中rkl
是变量
xk
与变量
xl间的相关系数。当
p
个变量互不相关时,d
ij
dij(2)p
,
即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变
量,则有相应的定义距离的方法。3.定性变量的距离下例只是对名义尺度变量的一种距离定义。
例1某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(x1)
取值为男和女;外语语种(x2)取值为英、日和俄;专业(x3)取值为统计、
会计和金融;职业(x4)取值为教师和非教师;居住处(x5)取值为校内和校
外;学历(x6)取值为本科和本科以下。现有两名学员:
x1(男,英,统计,非教师,校外,本科)ˊ
x2(女,英,金融,教师,校外,本科以下)ˊ这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值
为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1,
不配合的变量数为m2,则它们之间的距离可定义为
d12
m2m1m2
按此定义本例中
x1
与
x2
之间的距离为
23
。
1.2.匹配系数
当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。
文案大全
标准文档
第i个样品与第j个样品的匹配系数定义为
p
SijZk,其中k1
1,Zk0,
当xikxjk当xikxjk
显然匹配系数越大,说明两样品越相似。
1.3.相似系数
聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在
对变量进行分类时,常常采用相似系数来度量变量之间的相似性。
设cij表示xi与xj的相似系数,它一般应满足如下三个条件:
⑴cij1,对一切i,j;
⑵cij1,当且仅当存在常数a和b,使得xiaxjb;
⑶cijcji,对一切i,j.最常用的相似系数有以下两种:1.夹角余弦
变量xi与xj的夹角余弦定义为
n
xkixkj
cij(1)
k1n
n
1
[
x
2ki
xk2j]2
k1
k1
它是Rn中变量xi的观测向量(x1i,x2i,,xni)'与变量xj的观测向量
(x1j,x2j,,xnj)'之间夹角ij的余弦函数,即cij(1)cosij.2.相关系数
变量xi与xj的相关系数为
n
(xkixi)(xkjxj)
cij(2)
k1
1
{[
n
(xkixi)2][
n
(xkj
x
j
)
2
2
]}
k1
k1
文案大全
标准文档
n
n
其中xixki,xjxkj
k1
k1
2.聚类分析
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传
统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、
有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法
的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS
等。
从机器学习的角度看,需要由聚类学习算法自动确定标记,而分类学
习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学
习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务,是模式识别
的重要前提。而且聚类能够作为一个独立的工具获得数据的分布状况,观
察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析
还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
2.1.聚类分析的流程及数据来源
聚类分析法的主要流程包括:数据预处理、为衡量数据点间的相似度
定义一个距离函数、聚类或分组和评估输出,用流程图描述如图1所示。
文案大全
标准文档
图1聚类分析流程图聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别而言,首先要获取关于本机组的大量运行参数,既要有机器平稳运行、正常工作时的数据,更要有机器出现故障时的数据,并且获知故障的类别。这样,由已知故障类别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据挖掘的训练学习样本库。这里用到的数据就是设备的点检数据。2.2.常用的聚类分析方法(1)系统聚类法系统聚类法(Hierarchicalclusteringmethod)是目前使用最多的一种方法。其基本思想是首先将n个样品看成n类(即一类包括一个样品),然后规定样品之间的距离和类与类之间的距离。将距离最近的两类合并为一个新类,在计算新类和其他类之间的距离,再从中找出最近的两类合并,继续下去,最后所有的样品全在一类。将上述并类过程画成聚类图,便可以决定分多少类,每类各有什么样品。系统聚类法的步骤为:①首先各样品自成一类,这样对n组样品就相当于有n类;②计算各类间的距离,将其中最近的两类进行合并;③计算新类与其余各类的距离,再将距离最近的两类合并;④重复上述的步骤,直到所有的样品都聚为一类时为止。下面以最短距离法为例来说明系统聚类法的过程。最短距离法的聚类步骤如下:①规定样品之间的距离,计算样品的两两距离,距离矩阵记为S0,开始
视每个样品分别为一类,这时显然应有D(p,q)dpq;
②选择距离矩阵S0中的最小元素,不失一般性,记其为D(p,q),则将Gp
与Gq合并为一新类,记为Gm,有GmGpGq;
③计算新类Gm与其他各类的距离,得到新的距离矩阵记为S1;
④对S1重复开始进行第②步,…,直到所有样本成为一类为止。值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不止一个时,则可以将其同时合并。
文案大全
标准文档
(2)动态聚类法开始将n个样品粗略地分成若干类,然后用某种最优准则进行调整,一次又
一次地调整,直至不能调整了为止。此法非常类似于计算方法的迭代法。(3)分解法
它的程序正好和系统聚类相反,开始时所有的样本都在一类,然后用某种最优准则将它分成两类。再用同样准则将这两类各自试图分裂为两类,从中选出一个使目标函数较好者,这样由两类变成了三类。如此下去,一直分裂到每类只有一个样品为止(或用其他停止规则)。(4)加入法
将样品依次输入,每次输入后将它放到当前聚类图的应有位置上,全部输入后,即得聚类图。
3.总结体会
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。比如说现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑,那样是分不出类来的。所以只能对产品的m个指标综合考虑,采用SPSS中的样本聚类方法,就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。
聚类分析不仅可以用于样本聚类,还可以用于变量聚类,就是对m个指标进行聚类。因为有时指标太多,不能全部考虑,需要提取出主要因素,而往往指标之间又有很多相关联的地方,所以可以先对变量聚类,然后从每一类中选取出一个代表型的指标。这样就大大减少了指标,并且没有造成巨大的信息丢失。
文案大全
篇二:聚类分析实验心得体会
jingningc均值算法首先取定c个类别和选取c个初始聚类中心按最小距离原则将各模式分配到c类中的某一类之后不断地计算类心和调整各模式的类别最终使各模式到其判属类别中心的距离平方之和最小2实验步骤第一步
对数据进行聚类分析实验报告
基本要求
用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集,利用C均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。
二、实验要求
1、把FAMALE.TXT和MALE.TXT两个文件合并成一个,同时采用身高和体重数据作为特征,设类别数为2,利用C均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。
2、对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。
3、对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。。
4、利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会
三、实验步骤及流程图
根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE与MALE中
数据组成的样本按照上面要求用C均值法进行聚类分析,然后对FEMALEMALE
test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。一、(1)、C均值算法思想C均值算法首先取定C个类别和选取C个初始聚类中心,按最小距离原则将各模式分配到C类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小
(2))实验步骤
第一步:确定类别数C,并选择C个初始聚类中心。本次试验,我们分别将C的值取为2和3。用的是凭经验选择代表点的方法。比如:在样本数为N时,分为
两类时,取第1个点和第INTN/2
1个点作为代表点;分为三类时,取第1、
INTN/3
1、INT2N/3
1个点作为代表点;
第二步:将待聚类的样本集中的样本逐个按最小距离规则分划给C个类中的某一类。第三步:计算重新聚类后的个各类心,即各类的均值向量。第四步:如果重新得到的类别的类心与上一次迭代的类心相等,则结束迭代,否则转至第二步。第五步:迭代结束时,换不同的初始值进行试验,将实验结果进行比较
(3)、实验流程图
(4))本次试验我们用的聚类指标是误差平方和聚类准则Je设N是第i聚类Ci的样本数目,Zi是这些样本的均值,则把Ci中得各样本y与均值乙间的误差平方和对所有类相加后为:
c
Je-
-丨y-mi2
i=1y^Cj
当C取不同的值时各自算出它们的Je,进行比较
、利用分级聚类方法进行聚类
1、分级聚类法思想:首先把全部样本作为一类看做一类,然后根据一定的目标函数
进行分解。2、步骤第一步:开始时,将全部样本当做一类,第二类即为空集。
第二步:将第一类中的所有样本依次放入第二类,计算两类样本均值
Xi,X2,
样本数目Ni,N2以及目标函数E=_^£1以1_X2)'(Xi—X2),比较E值大小,选
N
择E值最大所对应的样本,将其归入第二类。并记录此时的E为E(1)第三步:将第一类中剩下样本依次放入第二类中,按照上面运算得出E值,并比较E值大小,选择E值最大所对应的样本,将其归入第二类。并记录此时的E为E(2)第三步:将新的两类按照上面的方法继续划分,直到第i次迭代的E(i)<E(i-1)或者到达规定的迭代次数。
3、实验流程图
四、实验结果
I、1、用FAMALE.TXT和MALE.TXT中的数据组合起来作为样本集:
C=2时(1)、取第一个和第五十一个样本作为初始聚类中心,得出的实验结果图如下:
9085
-
8075706560555045
-
40140145
T
1
|1
1
1
1
p
-T-1
*■
11
150
+-
幸
TT
*牡沪
TT!』L
*+
*
+毕++4?*彳
卜+
++♦-*
+
青
t+
+4*
A***+*
*
*+*
卜圭**
*+
4***+■:+■
*
t*
++■+♦
11155II1.60|i165117011751180185
¥190
得到结果是:点号表示的类别中样本总数为61,星表示的类别中样本总数为39两个聚类中心分别为:A(163.5738,53.1541),B(175.8974,68.2692)
2)、取第二十五个和七十五个样本作为初始聚类中心时得到的实验结果如下:
得到结果是:点号表示的类别中样本总数为61,星表示的类别中样本总数为39。两个聚类中心分别为:A(163.5738,53.1541),B(175.8974,68.2692)进行多次试验发现取不同的初始聚类中心时实验结果相同。它们的Je=5.9707e+003但是,经过后面的实验我们发现,初始聚类中心选择影响最后的聚类中心,其能保证优化,而不能保证全局优化,ISODATA在这一点比C-均化更好。
F面是将男女样本所代表的点分别画到图上可得下图:
其中点表示的是女生样本,圆圈表示的是男生样本。其中,男生的样本均值为(173.9200,65.5020)女生的样本均值为(162.8400,52.5960)通过比较两幅图,可以发现,当去C=2时,对数据进行聚类分析得到的聚类结果基本类似于男女生分类,他们的样本均值相差不大,不过还是有一定差别。别出现在一些身高低于1.70米的男生处。
C=3时得到的聚类结果图如下:
最终的三个聚类中心:A(159.2333,49.9333)B(168.8158,57.0105)C(176.4375,70.0156)Je=3.9251e+003从图中可以看出,当划分为三类时,其结果可以看做按照身高与体重的比将样本进行聚类,身高体重比大,较大,小的分别为一类。
C=4时:得到的分来结果如下:
90
85
80
0
75
0
70
000
00'0
65
0
60
00OO8R
°O
55
***~Ki
O
50
*秦*
45-
T山卄*
4U0145150155160165170仃5180195190
得到的四个聚类中心为:A(157.4286,49.2381),B(164.7727,53.3545)C(170.4400,58.2640),D(176.4375,70.0156)
Je=3.4318e+003
C=5时得到的聚类结果如下:
908580757065605550454014014S150
156160165170175180135190
最终的五个聚类中心分别为:A(158.1579,47.3684),B(163.3913,54.4652)C(170.3462,58.1423),D(176.0741,67.7593)
Je=2.6352e+003
C=6时得到的聚类结果如下:E(178.4000,82.2000)
Je=2.6352e+003
C=7时得到的聚类结果如下:
90----------11-----------------1-------------------------1-------1-------1-------1--
35
C'
80
75
70
XXXXXX菱廿DyA“A
65
厂x
60
/V\2、玉*
55
+**k_L辛++*
00*:*8
50
+ 0$*
OAO
『
45
40
”
140145150155160165170175160185
190
最终的6个聚类中心分别为:
A(158.3462,
B(166.9259,
49.8462)
54.5889)
C(171.4737,
D(175.6842,
60.8158)
68.1842)
EJ(e=127.85.600070e0+,00830.6667)F(183.3333,
66.6667)
1、画出C值与Je之间的关系曲线如下:由图可以看出,拐点离2较近,所以讲此样本集聚为二类最佳2、把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,实验结果
如下:
(1)、取第二十五个和第二百零一个个样本作为初始聚类中心,得出的实验结果图
130
120
110
100
*
90
80
70
60
50
40
140
150
160
170
180
190
200
其中,A(165.0479,53.6491),B(176.4506,69.9378)Je=3.2952e+004
取第一百个和第三百个样本作为初始聚类中心时得出结果与前面相同
(2)、C=3
IJ
140
IJ7
o
A(163.3438,51.8742),B(174.5561,64.5024)C(178.8657,80.4776)
Je=2.0594e+004
(3)、C=4时:
Je=1.6346e+004A(159.8548,48.3145),B(167.5567,56.6485)C(175.4783,65.7908),D(179.3684,81.7368)
(4)C=5时:
130
12011010090
80
70
60
50
15
160
170
18
0
0
Je=1.3575e+004
A(160.5732,50.0512),B(170.0510,57.5020)C(175.3836,65.9452),D(178.6429,75.7589)E(179.6667,91.3889)
190
200
oo
(5)、C=6时
AAA
A
60
1
40oO154
其中,Je=1.3018e+004A(160.8427,50.6596)C(172.6381,62.9143)
E(177.2955,68.0057)
B(170.6296,55.1241)D(176.8488,76.8837)
F(181.5952,89.1905)
画出C值与Je之间的关系曲线如下与图可知,拐点离2较近,所以认为此时仍是将样本集分为二类最佳
(4)、将两种样本即进行聚类后的样本中心进行比较,如下表:
\样本以FEMALE和MALE中得数据作为样本
以FEMALE和MALE以及test2中的
数据作为样本
2
A(163.5738,53.1541)
B(175.8974,68.2692)
A(165.0479,53.6491)B(176.4506,69.9378)
3
A(159.2333,49.9333)
A(163.3438,51.8742)
B(168.8158,57.0105)C(176.4375,70.0156)
B(174.5561,64.5024)C(178.8657,80.4776)
4
A(157.4286,49.2381)B(164.7727,A(159.8548,48.3145)B
53.3545)
(167.5567,56.6485)
C(170.4400,58.2640)
C(175.4783,65.7908)
D(176.4375,70.0156)
D(179.3684,81.7368)
5
A(158.1579,47.3684)
A(160.5732,50.0512)
B(163.3913,54.4652)
B(170.0510,57.5020)
C(170.3462,58.1423)
C(175.3836,65.9452)
D(176.0741,67.7593)
D(178.6429,75.7589)
E(178.4000,82.2000)
E(179.6667,91.3889)
6
A(158.3462,49.8462)B(166.9259,A(160.8427,50.6596)B
54.5889)
(170.6296,55.1241)
C(171.4737,60.8158)
C(172.6381,62.9143)
D(175.6842,68.1842)
D(176.8488,76.8837)
E(178.0000,80.6667)
E(177.2955,68.0057)
F(183.3333,66.6667)
F(181.5952,89.1905)
从上表可以纵向比较可以看出,C越大,即聚类数目越多,聚类之间差别越小,他们的聚类中心
也越接近。横向比较用
FEMALE,MALE中数据作为样本和用
FEMALE,MALE,test2中数据作为样本时,由于引入了新的样本,可以发现后者的聚类中心比前者都稍大。但是它们的分布类似,变化不大。
II、将两个样本分别用分级聚类方法进行聚类,得出结果,并与行比较:1、对FEMALE与MALE中数据组成的样本集进行分级聚类:
C均值聚类法进
由图可见,分级聚类法将样本分为两类,它们的聚类中心分别为
A(163.4667,53.0400)B(175.7500,68.0625)将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,下面是它们的聚类中心比较:
聚类方法
C均值聚类
分级聚类
聚类中心
A(163.5738,53.1541)A(163.4667,53.0400)B(175.8974,68.2692)B(175.7500,68.0625)
比较发现它们的聚类结果很相似
2、对由MALEMALEtest2中数据组成的样本集进行分级聚类:
70
+
*:
ST*
*+
*-*:4*n
•
•
•
嘩
■
」
4LO14
OdJi
.^
1
5
0
1
o
由图可见,分级聚类法将样本分为两类,它们的聚类中心分别为
A(164.9819,53.6229),B(176.4487,69.8868)
将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,下面
是它们的聚类中心比较:
聚类方法
C均值聚类
分级聚类
聚类中心
A(165.0479,53.6491)A(164.9819,53.6229)B(176.4506,69.9378)B(176.4487,69.8868)
比较发现它们的聚类结果也很类似分析:比较发现利用分级聚类方法与利用C均值聚类法时C取2时的聚类结果极其相似.
五、心得体会
通过本次试验,我们队C均值聚类法以及分级聚类法都有了较好的理解,并且在用MATLAB编程方面都有了很大进步。
部分代码:
C均值
%C=2clc;clearall;[FHFW]=textread('C:\Users\xuyd\Desktop\homework\FEMALE.txt','%f%f');[MHMW]=textread('C:\Users\xuyd\Desktop\homework\MALE.txt','%f%f');FA=[FHFW];FA=FA';MA=[MHMW];MA=MA';fork=1:50
NT(:,k)=FA(:,k);end
fork=51:100NT(:,k)=MA(:,k-50);endz1=NT(:,1);z2=NT(:,51);fork=1:100
a=z1,b=z2G1=zeros(2,100);G2=zeros(2,100);fori=1:100d仁sqrt((NT(1,i)-z1(1,1))A2+(NT(2,i)-z1(2,1)F2);d2=sqrt((NT(1,i)-z2(1,1))A2+(NT(2,i)z2(2,1)F2);ifd1<d2
G1(:,i)=NT(:,i);else
G2(:,i)=NT(:,i);endendG1(:,find(sum(abs(G1),1)==0))=[];G2(:,find(sum(abs(G2),1)==0))=[];z1=mean(G1,2);z2=mean(G2,2);ifisequal(a,z1)==1&&isequal(z2,b)==1breakendendz1,z2,G1,G2,size(G1,2),size(G2,2)fori=1:size(G1,2)x=G1(1,i);y=G1(2,i);plot(x,y,'G.');holdonend
2S
2L
eo(rGli'
)N'f
XUG2UDy"G2(2DP_of(xy-Frxho-don
end
)7
二-)
+二
(
05N
3f
2o
(p
二
)
-
+
ho-don
p_ofN2?DZ2(2
ho-don
B
pa=
c
c_ear
厂厂
一
一一
一
「一
」
FHFwllxe>$read(ccsers\xuyd
Deskfop
homework
FEMALE.X-%f
%f-x-MHMwllxe>$read(ccsers\xuyd
Deskop
homeworkwIALE.tx
丄
□
-%f
%
FAFHFWLFAUFA
「
丄
MAMHMWLMAUMA
for
k
A
-50
-
NTCkllFACK
C
A
-M
■H
k
N)J'
U0(
15T
G>N
H
」
「
O
H
m
-
k
l
g
l
Hu
Nko
o
'A
A
fork"51=00
end
G2uzeros(2=00xxumean(G2xx2umean(G22x
Buzeros?100=for
if
e_se
gpend
if
e_se
end
u
〒「
k
Or
mo
MAo
ll'f
-
H
(mGG
2l(w*llllogolr
G1(:,find(sum(abs(G1),1)==0))=[];G2(:,find(sum(abs(G2),1)==0))=[];X1=mean(G1,2);X2=mean(G2,2);N1=size(G1,2);N2=size(G2,2);E=N1*N2/100*(X1-X2)'*(X1-X2);if
E>ax1=X1;x2=X2;p1=G1;p2=G2;B(1,k)=E;G1=g1;elseE=a;G1=g1;endendG2=p2;ifk>=2&&B(1,k)<B(1,k-1)breakendendx1,x2,p1,p2fori=1:size(p1,2)x=p1(1,i);y=p1(2,i);plot(x,y,'G.');holdonendfori=1:size(p2,2)x=p2(1,i);y=p2(2,i);plot(x,y,'R*');holdonendplot(x1(1,1),x1(2,1),'B+')holdonplot(x2(1,1),x2(2,1),'B+')holdon
篇三:聚类分析实验心得体会
欢迎共阅
聚类分析学习体会
聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。
聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。
1.聚类统计量在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:
⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学等。⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。1.1.距离1.数据矩阵
欢迎共阅
设xij为第i个样品的第j个指标,数据矩阵如下表
表1数据矩阵
样品
变量x1
x2
…
xp
1
x11
2x21
n
xn1
x12
…
x1p
x22
…
x2p
xn2
…
xnp
在上表中,每个样品有p个变量,故每个样品都可以看成是Rp中的一个点,
n个样品就是Rp中的n个点。在Rp中需定义某种距离,第i个样品与第j个样品
之间的距离记为dij,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。所定义的距离dij一般应满足如下四个条件:
⑴dij0,对一切i,j;且d(xi,xj)0当且仅当xixj⑵dijdji,对一切i,j;⑶dijdikdkj,对一切i,j,k2.定量变量的常用的距离对于定量变量,常用的距离有以下几种:⑴闵科夫斯基(Minkowski)距离这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:
p
1)当q1时,dij(1)xikxjk称为绝对值距离,常被形象地称为“城市k1
街区”距离;
p
2)当q2时,dij(2)[
1
xik
xjk
2
]2
,称为欧氏距离,这是聚类分析中最
k1
常用的距离;
3)当
q
时,
dij
()
max
1kp
xik
xjk
,称为切比雪夫距离。
欢迎共阅
dij(q)在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位有关,另一方面它没有考虑指标间的相关性。
当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:
令
xij
xij
sj
xj
其中xj
1n
ni1
xij
为第
j个变量的样本均值,sj
1n1
n
(xij
i1
xj)2
为第
j个
变量的样本方差。
⑵兰氏(Lance和Williams)距离
当xij0(i1,2,,n;j1,2,,p)时,第i个样品与第j个样品间的兰
氏距离为
这个距离与各变量的单位无关,但没有考虑指标间的相关性。
⑶马氏距离(Mahalanobis)距离
第i个样品与第j个样品间的马氏距离为
其中xi(xi1,xi2,,xip)',xj(xj1,xj2,xjp),S为样品协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。
⑷斜交空间距离第i个样品与第j个样品间的斜交空间距离定义为
其中rkl
是变量
xk
与变量
xl间的相关系数。当
p
个变量互不相关时,d
ij
dij(2)p
,
即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变
量,则有相应的定义距离的方法。3.定性变量的距离
欢迎共阅
下例只是对名义尺度变量的一种距离定义。
例1某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(x1)
取值为男和女;外语语种(x2)取值为英、日和俄;专业(x3)取值为统计、
会计和金融;职业(x4)取值为教师和非教师;居住处(x5)取值为校内和校
外;学历(x6)取值为本科和本科以下。现有两名学员:
x1(男,英,统计,非教师,校外,本科)ˊ
x2(女,英,金融,教师,校外,本科以下)ˊ这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,
另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1,不配合
的变量数为m2,则它们之间的距离可定义为
按此定义本例中
x1
与
x2
之间的距离为
23
。
1.2.匹配系数
当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。
第i个样品与第j个样品的匹配系数定义为
p
SijZk,其中k1
显然匹配系数越大,说明两样品越相似。1.3.相似系数
聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。
设cij表示xi与xj的相似系数,它一般应满足如下三个条件:
⑴cij1,对一切i,j;
⑵cij1,当且仅当存在常数a和b,使得xiaxjb;
⑶cijcji,对一切i,j.
欢迎共阅
最常用的相似系数有以下两种:1.夹角余弦
变量xi与xj的夹角余弦定义为
它是Rn中变量xi的观测向量(x1i,x2i,,xni)'与变量xj的观测向量
(x1j,x2j,,xnj)'之间夹角ij的余弦函数,即cij(1)cosij.2.相关系数变量xi与xj的相关系数为
n
n
其中xixki,xjxkj
k1
k1
2.聚类分析
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传
统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、
有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法
的聚类分析工具已被加入到许多着名的统计分析软件包中,如SPSS、SAS
等。
从机器学习的角度看,需要由聚类学习算法自动确定标记,而分类学
习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学
习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务,是模式识别
的重要前提。而且聚类能够作为一个独立的工具获得数据的分布状况,观
察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析
还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
2.1.聚类分析的流程及数据来源
聚类分析法的主要流程包括:数据预处理、为衡量数据点间的相似度
定义一个距离函数、聚类或分组和评估输出,用流程图描述如图1所示。图1聚类分析流程图
聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别
而言,首先要获取关于本机组的大量运行参数,既要有机器平稳运行、正
欢迎共阅
常工作时的数据,更要有机器出现故障时的数据,并且获知故障的类别。这样,由已知故障类别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据挖掘的训练学习样本库。这里用到的数据就是设备的点检数据。2.2.常用的聚类分析方法(1)系统聚类法系统聚类法(Hierarchicalclusteringmethod)是目前使用最多的一种方法。其基本思想是首先将n个样品看成n类(即一类包括一个样品),然后规定样品之间的距离和类与类之间的距离。将距离最近的两类合并为一个新类,在计算新类和其他类之间的距离,再从中找出最近的两类合并,继续下去,最后所有的样品全在一类。将上述并类过程画成聚类图,便可以决定分多少类,每类各有什么样品。
系统聚类法的步骤为:①首先各样品自成一类,这样对n组样品就相当于有n类;②计算各类间的距离,将其中最近的两类进行合并;③计算新类与其余各类的距离,再将距离最近的两类合并;④重复上述的步骤,直到所有的样品都聚为一类时为止。下面以最短距离法为例来说明系统聚类法的过程。最短距离法的聚类步骤如下:规定样品之间的距离,计算样品的两两距离,距离矩阵记为S0,开始视每个样
品分别为一类,这时显然应有D(p,q)dpq;
选择距离矩阵S0中的最小元素,不失一般性,记其为D(p,q),则将Gp与Gq合
并为一新类,记为Gm,有GmGpGq;
计算新类Gm与其他各类的距离,得到新的距离矩阵记为S1;
对S1重复开始进行第②步,…,直到所有样本成为一类为止。值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不
止一个时,则可以将其同时合并。(2)动态聚类法
开始将n个样品粗略地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。此法非常类似于计算方法的迭代法。(3)分解法
欢迎共阅
它的程序正好和系统聚类相反,开始时所有的样本都在一类,然后用某种最优准则将它分成两类。再用同样准则将这两类各自试图分裂为两类,从中选出一个使目标函数较好者,这样由两类变成了三类。如此下去,一直分裂到每类只有一个样品为止(或用其他停止规则)。(4)加入法
将样品依次输入,每次输入后将它放到当前聚类图的应有位置上,全部输入后,即得聚类图。
3.总结体会聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。比如说现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑,那样是分不出类来的。所以只能对产品的m个指标综合考虑,采用SPSS中的样本聚类方法,就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。聚类分析不仅可以用于样本聚类,还可以用于变量聚类,就是对m个指标进行聚类。因为有时指标太多,不能全部考虑,需要提取出主要因素,而往往指标之间又有很多相关联的地方,所以可以先对变量聚类,然后从每一类中选取出一个代表型的指标。这样就大大减少了指标,并且没有造成巨大的信息丢失。
篇四:聚类分析实验心得体会
目录
利用相关分析法以及聚类分析对黑龙江省2009年各市按经济实力分类
1
目录
目录
摘要:...................................................................................................41指标体系的建立.............................................................................5
1.1数据收集说明...........................................................................51.2数据的处理...............................................................................51.3指标的解释...............................................................................52相关分析模型的建立.....................................................................72.1PEARSON相关系数....................................................................73聚类分析模型的建立.....................................................................83.1系统聚类分析...........................................................................83.2系统聚类的分析步骤...............................................................84黑龙江实证分析.............................................................................94.1相关分析...................................................................................94.2聚类分析.................................................................................10总结..................................................................................................12心得体会.............................................................错误!未定义书签。参考文献:......................................................................................13附录:..............................................................................................14
1
目录1
目录
摘要:
本文是运用了相关分析对黑龙江省13个市2009年的人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标进行了相关性的检验。然后运用了聚类分析对黑龙江的13个市进行了分类。大致的分为了3大类。
关键词相关分析;聚类分析;分类;
4
《数据分析课程》项目
1指标体系的建立
1.1数据收集说明
本次的分析指标是2009年黑龙江13个市的人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项。数据经过是从《黑龙江统计年鉴2010》和《中国区域经济统计年鉴2010》上获取的的数据进行相应的计算得到的。
1.2数据的处理
人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标中有四项指标是不能直接获取的,分别是:人均社会消费品零售总额、人均财政收入、人均工业增加值和全员劳动生产率。这四项指标通过了一定的计算得到。相应的公式如下:
1.人均社会消费品零售总额=社会消费品零售总额/年末人口总数;2.人均财政收入=财政收入/年末人口总数;3.人均工业增加值=工业增加值/年末人口总数;4.全员劳动生产率=工业增加值/全部从业人员平均人数;其中的年末人口总数和全部从业人员平均人数都能在《黑龙江统计年鉴2010》和《中国区域经济统计年鉴2010》中找到。
1.3指标的解释
人均GDP:也叫人均生产总值,常作为发展经济学中衡量经济发展状况的指标。是重要的宏观经济指标标之一,它是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具。是衡量各国各地区人民生活水平的一个标准。
农民人均纯收入:指的是按农村人口平均的“农民纯收入”,反映的是一个国家或地区农村居民收入的平均水平。其中,“农民纯收入”指的是农村居民当年从各个来源渠道得到的总收入,相应地扣除获得收入所发生的费用后的收入总和。
社会消费品零售总额:指批发和零售业、住宿和餐饮业以及其他行业直接售
5
《数据分析课程》项目
给城乡居民和社会集团的会消费品零售总额。人均财政收入:财政收入,是指政府为履行其职能、实施公共政策和提供公
共物品与服务需要而筹集的一切资金的总和。财政收入是衡量一国政府财力的重要指标。
工业增加值:工业企业全部生产活动的总成果扣除了在生产过程中消耗或转移的物质产品和劳务价值后的余额。
全员劳动生产率:指根据产品的价值量指标计算的平均每一个从业人员在单位时间内的产品生产量。是企业生产技术水平、经营管理水平、职工技术熟练程度和劳动积极性的综合表现。
职工平均工资:职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。
6
《数据分析课程》项目
2相关分析模型的建立
2.1pearson相关系数
相关分析是研究现象之间是否存在某种依存关系,也就是变量之间的相关性密切程度。研究两个变量间线性关系的程度通常用相关系数数r来描述。r的计算方法有很多种,本文仅使用pearson相关系数。Pearson相关系数是用来衡量两个变量是否在一条线上面,也就是用来衡量定距变量间的线性关系。Pearson相关系数计算公式为
r(xx)(yy)(xx)2(yy)2
2.2相关分析的主要步骤
1、计算相关系数
r(xx)(yy)(xx)2(yy)2
2相关性的说明
一般的假如两个变量的相关系数r满足|r|>0.95,则可以说明这两个变量存在显著性相关;
假如r满足|r|≥0.8则可以说明这两个变量存在高度相关;假如r满足0.5≤|r|<0.8则可以说明这两个变量存在高度相关;假如r满足|0.5≤|r|<0.8则可以说明这两个变量存在中度相关;假如r满足0.3≤|r|<0.5则可以说明这两个变量存在低度相关;假如r满足|r|<0.3.则可以说明这两个变量不相关;
7
《数据分析课程》项目
3聚类分析模型的建立
3.1系统聚类分析
聚类分析是依据研究对象的特征,对其进行分类的方法,目标是减少研究对象的数目。前提是各指标之间要具有一定的相关关系。本文仅使用系统聚类方法进行聚类分析。系统聚类的一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的目标首先聚合为一类,而把另一些相似程度较小的目标聚合为另一类,直到所有的目标都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。其相似程度由距离或者相似系数定义。本文仅使用的是欧氏距离。
欧氏距离:
n
dij(xikxjk)2(i,j1,2,3,m)k1
3.2系统聚类的分析步骤
(1)确定待分类的样品的指标;(2)建立指标体系模型;(3)数据导入spss,使用spss进行处理;(4)得出一张谱系图;(5)得出结论;
8
《数据分析课程》项目
4黑龙江实证分析
4.1相关分析
将数据导入spss后,使用相关中的双相关分析得出如下表格:
相关性
人均社
农民人会消费
人均工全员劳
均纯收品零售人均财业增加动生产职工平
人均GDP
入
总额
政收入
值
率
均工资
人均GDPPearson
1
.349
.838
.835
.975
.970
.912
相关性
显著性
.242
.000
.000
.000
.000
.000
(双侧)
农民人Pearson
.349
1
.584
.392
.207
.196
.246
均纯收相关性
入
显著性
.242
.036
.185
.498
.521
.417
(双侧)
人均社Pearson
.838
.584
1
.789
.711
.695
.793
会消费相关性
品零售总额
显著性(双侧)
.000
.036
.001
.006
.008
.001
人均财Pearson
.835
.392
.789
1
.769
.798
.836
政收入相关性
显著性
.000
.185
.001
.002
.001
.000
(双侧)
人均工Pearson
.975
.207
.711
.769
1
.996
.875
业增加相关性
值
显著性
.000
.498
.006
.002
.000
.000
(双侧)
全员劳Pearson
.970
.196
.695
.798
.996
1
.884
动生产相关性
率
显著性
.000
.521
.008
.001
.000
.000
(双侧)
职工平Pearson
.912
.246
.793
.836
.875
.884
1
均工资相关性
显著性
.000
.417
.001
.000
.000
.000
(双侧)
表1
从表1可以看出,人均GDP、农民人均纯收入、人均社会消费品零售总额、
9
《数据分析课程》项目
人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资都存在了一定的相关性。其中人均GDP和人均工业增加值、全员劳动生产率是显著相关;和人均社会消费品零售总额、人均财政收入、职工平均工资是高度相关;和农民人均纯收入是低度相关。农民人均纯收入和人均社会消费品零售总额是中度相关;和人均收入是低度相关;和人均工业增加值、全员劳动生产率、职工平均工资无相关。人均社会消费品零售总额和人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资存在中度相关。人均财政收入和职工平均工资存在高度相关;和人均工业增加值、全员劳动生产率存在中度相关。人均工业增加值和全员劳动生产率存在显著相关;和职工平均工资存在高度相关。全员劳动生产率和职工平均工资存在高度相关。
所以符合积累分析的要求,既存在一定的相关性。
4.2聚类分析
将数据输入spss后,使用分类中的系统聚类,并且在其中的聚类成员中的类数选择4类后得到如下表格:
群集成员
案例
3群集
1:哈尔滨
2
2:齐齐哈
3
3:鸡西市
3
4:鹤岗市
3
5:双鸭山
3
6:大庆市
1
7:伊春市
3
8:佳木斯
3
9:七台河
2
10:牡丹江
3
11:黑河市
3
12:绥化市
3
13:大兴安
3
表2
10
《数据分析课程》项目
图1
从表一看出第一类:大庆市。人均GDP和人均工业增加值是所有市中最高的市,领先于其他市。总体发展水平相对于其它市比较的好。人民生活相对较好。再则该市的其他各项指标也是中上等的。所以第一类是发达地区。
第二类:哈尔滨市、七台河市。各项指标都比较平衡,各方面发展比较均衡。为中等发达地区。
第三类:齐齐哈尔市、鸡西市、鹤岗市、双鸭山市、伊春市、佳木斯市、牡丹江市、黑河市、绥化市、大兴安岭地区。相对于大庆市、哈尔滨市和七台河市相对落后,所以是欠发达地区。
从图1看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大时,13个地区被依次聚类。当距离为0时,每个样本为单独的1类;当距离为5时,则13个地区被聚为3类;当距离为大于10小于25时,则13个地区被聚为2类;最终,当聚类标准(距离)扩大到25时,13个地区被聚为了1类。
11
《数据分析课程》项目
总结
此次通过相关分析得到了人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标之间存在了一定的相关关系。各个指标在现实中相互的影响着。通过聚类分析将黑龙江的13个市分成了3类。分别是如下。第一类发达地区:大庆市。第二类中等发达:哈尔滨市、七台河市。第三类欠发达地区:齐齐哈尔市、鸡西市、鹤岗市、双鸭山市、伊春市、佳木斯市、牡丹江市、黑河市、绥化市、大兴安岭地区。通过分类我们可以看出黑龙江的各市发展差距有点偏大。需要调控。
写这篇论文数据刚开始并不好找。最初我也是想找2010县的数据来做,毕竟题目是要2010县市。可是虽然《黑龙江统计年鉴2011》已经出来了,但是在上面仅仅能找到5项指标,我就认为不行了。那时候《中国区域经济统计年鉴2011》还没有出来,到现在也没出来。去找2009的县市吧,可是仅仅就能找出来5项,感觉也不行。2010的市也找不出几项来,所以最后找了2009的市,很可惜指标还是差一个(农村居民人均生活消费支出)。这篇论文黑龙江统计局上数据很少,基本没有。
12
《数据分析课程》项目
参考文献:
梅长林,范金城.数据分析方法.北京.高等教育出版社,2006.黑龙江省统计年鉴2010.山东省统计局,2010.中国区域经济统计年鉴2010.国家统计局.2010百度百科.黑龙江统计局http://www.docin.com/p-195341316.html中国统计年鉴数据库.http://tongji.cnki.net/kns55/index.aspx
13
《数据分析课程》项目
附录:
地区
哈尔滨市
齐齐哈尔市鸡西市鹤岗市双鸭山
市大庆市伊春市佳木斯
市七台河
市牡丹江
市黑河市绥化市大兴安岭地区
人均GDP
32053
127141854718508.7319817760681353017172.23
25534
22644.84128821047115261
农民纯收入
7614
5586.4573637305479659361396086
5562
77585979.95266.7
5339
人均社会消费品零售总额
人均财政收入
人均工业增加值
全员劳动生产率
15206.744824.7258448.36617614.26
5365.641357.3414038.3148858.585
5385.4222229.5496939.17116549.325539.3052534.688194.69818445.78
3753.3162351.1947806.36620241.69
16930.765609.41157535.3399370.113770.6211153.374139.8278859.704
7039.5261220.7192948.6176645.915
4633.6214347.43515589.4433674.34
8791.5742825.377595.34416993.51
2692.3081255.4591630.8844456.5823807.308800.0965342.9852761.3329
6083.651373.4032509.5065985.309
职工平均工资
28959
24038234332574725501413711479223224
25108
23739223261774319460
14
篇五:聚类分析实验心得体会
聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。
聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。
1.聚类统计量在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学等。⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。.距离1.数据矩阵
设xij为第i个样品的第j个指标,数据矩阵如下表
表1数据矩阵
变量
样品
x1
x2
…
xp
1
x11
2x21
n
xn1
x12
…
x1p
x22
…
x2p
xn2
…
xnp
在上表中,每个样品有p个变量,故每个样品都可以看成是Rp中的一个点,
n个样品就是Rp中的n个点。在Rp中需定义某种距离,第i个样品与第j个样品
之间的距离记为dij,在聚类过程中,相距较近的点倾向于归为一类,相距较远
的点应归属不同的类。所定义的距离dij一般应满足如下四个条件:
⑴dij0,对一切i,j;且d(xi,xj)0当且仅当xixj
⑵dijdji,对一切i,j;
⑶dijdikdkj,对一切i,j,k
2.定量变量的常用的距离对于定量变量,常用的距离有以下几种:⑴闵科夫斯基(Minkowski)距离
p
dij(q)[
1
xikxjkq]q
k1
这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:
p
1)当q1时,dij(1)xikxjk称为绝对值距离,常被形象地称为“城市k1
街区”距离;
p
2)当q2时,dij(2)[
1
xik
xjk
2
]2
,称为欧氏距离,这是聚类分析中最
k1
常用的距离;
3)当
q
时,
dij
()
max
1kp
xik
xjk
,称为切比雪夫距离。
dij(q)在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的
观测单位有关,另一方面它没有考虑指标间的相关性。
当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据
计算距离;最常用的标准化处理是:
令
xij
xij
sj
xj
其中xj
1n
ni1
xij
为第
j个变量的样本均值,sj
n
1
1
ni1
(xij
xj)2
为第
j个
变量的样本方差。
⑵兰氏(Lance和Williams)距离
当xij0(i1,2,,n;j1,2,,p)时,第i个样品与第j个样品间的兰氏距离为
dij(L)
pk1
xikxik
xjkxjk
这个距离与各变量的单位无关,但没有考虑指标间的相关性。
⑶马氏距离(Mahalanobis)距离
第i个样品与第j个样品间的马氏距离为
dij(M)(xixj)'S1(xixj)其中xi(xi1,xi2,,xip)',xj(xj1,xj2,xjp),S为样品协方差矩阵。
使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。
⑷斜交空间距离第i个样品与第j个样品间的斜交空间距离定义为
d
ij
[1p2
pk1
p
(xik
l1
xjk)(xil
1
xjl)rkl]2
其中rkl
是变量
xk
与变量
xl间的相关系数。当
p
个变量互不相关时,
d
ij
dij(2)p
,
即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变
量,则有相应的定义距离的方法。3.定性变量的距离下例只是对名义尺度变量的一种距离定义。
例1某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(x1)
取值为男和女;外语语种(x2)取值为英、日和俄;专业(x3)取值为统计、
会计和金融;职业(x4)取值为教师和非教师;居住处(x5)取值为校内和校
外;学历(x6)取值为本科和本科以下。现有两名学员:
x1(男,英,统计,非教师,校外,本科)ˊ
x2(女,英,金融,教师,校外,本科以下)ˊ这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值
为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1,
不配合的变量数为m2,则它们之间的距离可定义为
d12
m2m1m2
按此定义本例中
x1
与
x2
之间的距离为
23
。
.匹配系数
当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。
第i个样品与第j个样品的匹配系数定义为
p
SijZk,其中k1
1,Zk0,
当xikxjk当xikxjk
显然匹配系数越大,说明两样品越相似。
.相似系数
聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在
对变量进行分类时,常常采用相似系数来度量变量之间的相似性。
设cij表示xi与xj的相似系数,它一般应满足如下三个条件:
⑴cij1,对一切i,j;
⑵cij1,当且仅当存在常数a和b,使得xiaxjb;
⑶cijcji,对一切i,j.最常用的相似系数有以下两种:1.夹角余弦
变量xi与xj的夹角余弦定义为
n
xkixkj
cij(1)
k1n
n
1
[
x
2ki
xk2j]2
k1
k1
它是Rn中变量xi的观测向量(x1i,x2i,,xni)'与变量xj的观测向量
(x1j,x2j,,xnj)'之间夹角ij的余弦函数,即cij(1)cosij.2.相关系数
变量xi与xj的相关系数为
n
(xkixi)(xkjxj)
cij(2)
k1
1
{[
n
(xkixi)2][
n
(xkj
x
j
)
2
2
]}
k1
k1
n
n
其中xixki,xjxkj
k1
k1
2.聚类分析
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传
统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、
有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法
的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS
等。
从机器学习的角度看,需要由聚类学习算法自动确定标记,而分类学
习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学
习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务,是模式识别
的重要前提。而且聚类能够作为一个独立的工具获得数据的分布状况,观
察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析
还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
.聚类分析的流程及数据来源
聚类分析法的主要流程包括:数据预处理、为衡量数据点间的相似度
定义一个距离函数、聚类或分组和评估输出,用流程图描述如图1所示。
图1聚类分析流程图聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别而言,首先要获取关于本机组的大量运行参数,既要有机器平稳运行、正常工作时的数据,更要有机器出现故障时的数据,并且获知故障的类别。这样,由已知故障类别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据挖掘的训练学习样本库。这里用到的数据就是设备的点检数据。2.2.常用的聚类分析方法(1)系统聚类法系统聚类法(Hierarchicalclusteringmethod)是目前使用最多的一种方法。其基本思想是首先将n个样品看成n类(即一类包括一个样品),然后规定样品之
间的距离和类与类之间的距离。将距离最近的两类合并为一个新类,在计算新类和其他类之间的距离,再从中找出最近的两类合并,继续下去,最后所有的样品全在一类。将上述并类过程画成聚类图,便可以决定分多少类,每类各有什么样品。
系统聚类法的步骤为:①首先各样品自成一类,这样对n组样品就相当于有n类;②计算各类间的距离,将其中最近的两类进行合并;③计算新类与其余各类的距离,再将距离最近的两类合并;④重复上述的步骤,直到所有的样品都聚为一类时为止。下面以最短距离法为例来说明系统聚类法的过程。最短距离法的聚类步骤如下:
①规定样品之间的距离,计算样品的两两距离,距离矩阵记为S0,开始
视每个样品分别为一类,这时显然应有D(p,q)dpq;
②选择距离矩阵S0中的最小元素,不失一般性,记其为D(p,q),则将Gp
与Gq合并为一新类,记为Gm,有GmGpGq;
③计算新类Gm与其他各类的距离,得到新的距离矩阵记为S1;
④对S1重复开始进行第②步,…,直到所有样本成为一类为止。值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不止一个时,则可以将其同时合并。(2)动态聚类法开始将n个样品粗略地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。此法非常类似于计算方法的迭代法。(3)分解法它的程序正好和系统聚类相反,开始时所有的样本都在一类,然后用某种最优准则将它分成两类。再用同样准则将这两类各自试图分裂为两类,从中选出一个使目标函数较好者,这样由两类变成了三类。如此下去,一直分裂到每类只有一个样品为止(或用其他停止规则)。(4)加入法将样品依次输入,每次输入后将它放到当前聚类图的应有位置上,全部输入
后,即得聚类图。
3.总结体会
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。比如说现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑,那样是分不出类来的。所以只能对产品的m个指标综合考虑,采用SPSS中的样本聚类方法,就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。
聚类分析不仅可以用于样本聚类,还可以用于变量聚类,就是对m个指标进行聚类。因为有时指标太多,不能全部考虑,需要提取出主要因素,而往往指标之间又有很多相关联的地方,所以可以先对变量聚类,然后从每一类中选取出一个代表型的指标。这样就大大减少了指标,并且没有造成巨大的信息丢失。
篇六:聚类分析实验心得体会
对数据进行聚类分析实验报告
任争刚权荣一、基本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集,利用C均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。二、实验要求1、把FAMALE.TXT和MALE.TXT两个文件合并成一个,同时采用身高和体重数据作为特征,设类别数为2,利用C均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。2、对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。3、对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。。4、利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会三、实验步骤及流程图根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE与MALE中数据组成的样本按照上面要求用C均值法进行聚类分析,然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。一、(1)、C均值算法思想C均值算法首先取定C个类别和选取C个初始聚类中心,按最小距离原则将各模式分配到C类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小(2)、实验步骤第一步:确定类别数C,并选择C个初始聚类中心。本次试验,我们分别将C的值取为2和3。用的是凭经验选择代表点的方法。比如:在样本数为N时,分为两类时,取第一个点和第12/
NINT个点作为代表点;分为三类时,取第一、13/NINT、13/2NINT个点作为代表点;第二步:将待聚类的样本集中的
样本逐个按最小距离规则分划给C个类中的某一类。第三步:计算重新聚类后的个各类心,即各类的均值向量。第四步:如果重新得到的类别的类心与上一次迭代的类心相等,则结束迭代,否
则转至第二步。第五步:迭代结束时,换不同的初始值进行试验,将实验结果进行比较(3)、实
验流程图(4)、本次试验我们用的聚类指标是误差平方和聚类准则Je设iN是第i聚类iC
的样本数目,iz是这些样本的均值,则把iC中得各样本y与均值iz间的误差平方和对所有类相加后为:
ciCyieimyJ12当C取不同的值时各自算出它们的ej,进行比较。二、利用分级聚类方法进行聚类1、分级聚类法思想:首先把全部样本作为一类看做一类,然后根据一定的目标函数进行分解。2、步骤第一步:开始时,将全部样本当做一类,第二类即为空集。第二步:将第一类中的第一个样本放入第二类,计算两类样本均值IX,2X,并确定两类别中样本数LIXI,N2以及II标函数)21()”21(21XXXXNNNE第三步:将第一类中剩下的所有样本依次放入第二类中,按照上面运算得出E值,并比较E值大小,选择是E值最大的样本,将其归入第二类。并记录此时的E为E(2)第三步:将新的两类按照上面的方法继续划分,直到第i次迭代的E(i)<E(i-1)或者到达规定的迭代次数。3、实验流程图四、
实验结果
II、1、用FAMALE.TXT和MALE.TXT中的数据组合起来作为样本集:C二2时(1)、取第一个和第五十一个样本作为初始聚类中心,得出的实验结果图如下:
得到结果是:星号表示的类别中样本总数为61,点表示的类别中样本总数为39。两个聚类中心分别为:zl=(163.5738,53.1541),z2=(175.8974,68.2692)
(2)、取第二十五个和七十五个样本作为初始聚类中心时得到的实验结果如下:最终得到的两个聚类中心分别为:zl=(163.5738,53.1541),z2=(175.8974,68.2692)结果可发现取不同的初始聚类中心时两次实验结果相同。它们的ej二5.9707e+003但是,经过后面的实验我们发现,随着C变大,选取不同的初值对聚类结果有较大影响,当C二2时影响很小,儿乎可以不计。因为当分为两类时,样本的类别特征很明显,所以此时选取不同的初值对聚类结果没有影响,而随着C的增加,初值选择对聚类结果影响将会逐渐变大。下面是将男女样本所代表的点分别画到图上可得下图:其中点表示的是女生样本,圆圈表示的是男生样本。其中,男生的样本均值为(173.9200,65.5020)女生的样本均值为(162.8400,52.5960)通过比较两幅图,可以发现,当去C二2时,对数据进行聚类分析得到的聚类结果基本类似于男女生分类,他们的样本均值相差不大,不过还是有一定差别。差别出现在一些身高低于1.70米的男生处。03时得到的聚类结果图如下:最终的三个聚类中心:zl=(168.8158,57.0105)z2=(159.2333,49.9333)z3=(176.4375,70.0156)
ej=3.9251e+003从图中可以看出,当划分为三类时,其结果可以看做按照身高与体重的比将样本进行聚类,身高体重比大,较大,小的分别为一类。
C二4时:得到的分来结果如下:得到的四个聚类中心为:zl=(164.7727,53.3545),z2=(157.4286,49.2381)z3=(176.4375,70.0156),z4=(170.4400,58.2640)ej=3.4318e+003C=5时得到的聚类结果如下:
最终的五个聚类中心分别为:zl=(170.3462,58.1423),z2=(158.1579,47.3684),z3=(163.3913,
54.4652)z4=(176.0741,67.7593)z5=(178.4000,82.2000)ej=2.6352e+003C=6时得到的聚类结果如下:
最终的6个聚类中心分别为:zl=(166.9259,54.5889),z2=(183.3333,66.6667)z3=(158.3462,49.8462)z4=(178.0000,80.6667)zo=(171.4737,60.8158)z6=(175.6842,68.1842)ej=2.5607e+0031、画出C值与ej之间的关系曲线如下:
由图可以看出,在05之后,ej的减小变得缓慢,所以讲此样本集聚为五类最合理2、把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,实验结果如下:(1)、取第二十五个和第二百零一个个样本作为初始聚类中心,得出的实验结果图
其中,zl=(165.0479,53.6491),z2=(176.4506,69.9378)ej=3.2952e+004分为一类时的为7.1410e+004取笫一百个和第三白个样本作为初始聚类中心时得出结果与前面相同。(2)、C=3zl=(174.556L64.5024)z2=(163.3438,51.8742)z3=(178.8657,80.4776)ej=2.0594e+004(3)、C二4时:ej=l.6346e+004zl=(175.4783,65.7908),z2=(159.8548,48.3145)z3=(179.3684,81.7368),z4=(167.5567,56.6485)(4)C二5时:ej=l.3575e+004zl=(170.0510,57.5020),z2=(175.3836,65.9452)z3=(160.5732,50.0512),z4=(179.6667,91.3889)
zo=(178.6429,75.7589)(5)、06时其中,eJ二1.3018e+004zl=(170.6296,55.1241)z2=(177.2955,68.0057)z3=(160.8427,50.6596)z4=(172.6381,62.9143)
z5=(181.5952,89.1905),z6=(176.8488,76.8837)画出C值与ej之间的关系曲线如下与图可知,在05之后,ej的变化缓慢,所以认为此时仍是将样本集分为五类最合适(4)、将两种样本即进行聚类后的样本中心进行比较,如下表:样本C以FEMALE和MALE中得数据作为样本以FEMALE和MALE以及test2中的数据作为样本2zl=(163.5738,53.1541)
z2=(175.8974,68.2692)zl=(165.0479,53.6491),z2=(176.4506,69.9378)3zl=(168.8158,57.0105)z2=(159.2333,49.9333)z3=(176.4375,70.0156)zl=(174.5561,64.5024)z2=(163.3438,51.8742)z3=(178.8657,80.4776)4zl=(164.7727,53.3545)z2=(157.4286,49.2381)z3=(176.4375,70.0156)z4=(170.4400,58.2640)zl=(175.4783,65.7908),z2=(159.8548,48.3145)z3=(179.3684,81.7368),z4=(167.5567,56.6485)5zl=(170.3462,58.1423)z2=(158.1579,47.3684)z3=(163.3913,54.4652)z4=(176.0741,67.7593)z5=(178.4000,82.2000)zl=(170.0510,57.5020),z2=(175.3836,65.9452)z3=(160.5732,50.0512),z4=(179.6667,91.3889)zo=(178.6429,75.7589)6zl=(166.9259,54.5889),z2=(183.3333,66.6667)z3=(158.3462,49.8462)
z4=(178.0000,80.6667)z5=(171.4737,60.8158)z6=(175.6842,68.1842)zl=(170.6296,55.1241)z2=(177.2955,68.0057)z3=(160.8427,50.6596)z4=(172.6381,62.9143)z5=(181.5952,89.1905),z6=(176.8488,76.8837)从上表可以纵向比较可以看出,C越大,即聚类数L1越多,聚类之间差别越小,他们的聚类中心也越接近。横向比较用FEMALE,MALE中数据作为样本和用FEMALE,MALE,test2中数据作为样本时,由于引入了新的样本,可以发现后者的聚类中心比前者都稍大。但是它们的分布类似,变化不大。II、将两个样本分别用分级聚类方法进行聚类,得出结果,并与C均值聚类法进行比较:1、对FEMALE与MALE中数据组成的样本集进行聚类:由图可见,分即聚类法将样本分为两类,它们的聚类中心分别为xl=(163.4667,53.0400)x2=(175.7500,68.0625)将它与02时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,下面是它们的聚类中心比较:聚类方法C均值聚类分即聚类聚类中心zl=(163.5738,53.1541)z2=(175.8974,68.2692)xl=(163.4667,53.0400)x2=(175.7500,68.0625)
比较发现它们的聚类结果很相似。2、对IIIMALE.MALE.test2中数据组成的样本集进行分级类:
由图可见,分即聚类法将样本分为两类,它们的聚类中心分别为xl=(164.9819,53.6229),x2=(176.4487,69.8868)
将它与02时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,下面是它们的聚类中心比较:
聚类方法C均值聚类分即聚类聚类中心zl=(165.0479,53.6491),z2=(176.4506,69.9378)xl=(164.9819,53.6229),x2=(176.4487,69.8868)
比较发现它们的聚类结果也很类似分析:比较发现利用分即聚类方法与利用C均值聚类法时C取2时的聚类结果极其相似,但是,从误差平方和角度考虑,利用C均值聚类时C二2并不是最好的聚类结果,05时,才是最好的分类,由此可见,从误差平方和角度考虑,C均值聚类法比分即聚类法更优。
五、心得体会通过本次试验,我们队C均值聚类法以及分即聚类法都有了较好的理解,并且在用MATLAB编程方面都有了很大进步。
篇七:聚类分析实验心得体会
聚类分析学习体会
聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。
聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。
1.聚类统计量在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:
⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学等。⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。.距离1.数据矩阵设xij为第i个样品的第j个指标,数据矩阵如下表
表1数据矩阵
样品
变量x1
1
x11
2x21
n
xn1
x2
…
xp
x12
…
x1p
x22
…
x2p
xn2
…
xnp
在上表中,每个样品有p个变量,故每个样品都可以看成是Rp中的一个点,n个
样品就是Rp中的n个点。在Rp中需定义某种距离,第i个样品与第j个样品之间的距离记为dij,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。所定义的距离dij一般应满足如下四个条件:
⑴dij0,对一切i,j;且d(xi,xj)0当且仅当xixj⑵dijdji,对一切i,j;⑶dijdikdkj,对一切i,j,k2.定量变量的常用的距离对于定量变量,常用的距离有以下几种:⑴闵科夫斯基(Minkowski)距离这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:
p
1)当q1时,dij(1)xikxjk称为绝对值距离,常被形象地称为“城市街区”k1
距离;
p
2)当q2时,dij(2)[
1
xik
xjk
2
]2
,称为欧氏距离,这是聚类分析中最常用的
k1
距离;
3)当
q
时,
dij
()
max
1kp
xik
xjk
,称为切比雪夫距离。
dij(q)在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测
单位有关,另一方面它没有考虑指标间的相关性。
当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:
令
xij
xijxjsj
其中xj
1n
ni1
xij
为第
j个变量的样本均值,sj
1n1
n
(xij
i1
xj)2
为第
j个变量的
样本方差。
⑵兰氏(Lance和Williams)距离
当xij0(i1,2,,n;j1,2,,p)时,第i个样品与第j个样品间的兰氏距离
为这个距离与各变量的单位无关,但没有考虑指标间的相关性。
⑶马氏距离(Mahalanobis)距离
第i个样品与第j个样品间的马氏距离为
其中xi(xi1,xi2,,xip)',xj(xj1,xj2,xjp),S为样品协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。
⑷斜交空间距离第i个样品与第j个样品间的斜交空间距离定义为
其中rkl
是变量
xk
与变量
xl间的相关系数。当
p
个变量互不相关时,
d
ij
dij(2)p
,即斜
交空间距离退化为欧氏距离(除相差一个常数倍外)。
以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则
有相应的定义距离的方法。
3.定性变量的距离
下例只是对名义尺度变量的一种距离定义。
例1某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(x1)取
值为男和女;外语语种(x2)取值为英、日和俄;专业(x3)取值为统计、会计和金
融;职业(x4)取值为教师和非教师;居住处(x5)取值为校内和校外;学历(x6)取值为本科和本科以下。现有两名学员:
x1(男,英,统计,非教师,校外,本科)ˊ
x2(女,英,金融,教师,校外,本科以下)ˊ这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另
一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1,不配合的变量数
为m2,则它们之间的距离可定义为
按此定义本例中
x1
与
x2
之间的距离为
23
。
.匹配系数
当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。
第i个样品与第j个样品的匹配系数定义为
p
SijZk,其中k1
显然匹配系数越大,说明两样品越相似。.相似系数
聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。
设cij表示xi与xj的相似系数,它一般应满足如下三个条件:
⑴cij1,对一切i,j;
⑵cij1,当且仅当存在常数a和b,使得xiaxjb;
⑶cijcji,对一切i,j.最常用的相似系数有以下两种:
1.夹角余弦
变量xi与xj的夹角余弦定义为
它是Rn中变量xi的观测向量(x1i,x2i,,xni)'与变量xj的观测向量(x1j,x2j,,xnj)'之间夹角ij的余弦函数,即cij(1)cosij.
2.相关系数变量xi与xj的相关系数为
n
n
其中xixki,xjxkj
k1
k1
2.聚类分析
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统
计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、
有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加
入到许多着名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度看,需要由聚类学习算法自动确定标记,而分类学习的实
例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务,是模式识别的重要
前提。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据
的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法
(如分类和定性归纳算法)的预处理步骤。
.聚类分析的流程及数据来源
聚类分析法的主要流程包括:数据预处理、为衡量数据点间的相似度定义一
个距离函数、聚类或分组和评估输出,用流程图描述如图1所示。图1聚类分析流程图
聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别而言,
首先要获取关于本机组的大量运行参数,既要有机器平稳运行、正常工作时的数
据,更要有机器出现故障时的数据,并且获知故障的类别。这样,由已知故障类
别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据挖掘的训练
学习样本库。这里用到的数据就是设备的点检数据。2.2.常用的聚类分析方法
(1)系统聚类法系统聚类法(Hierarchicalclusteringmethod)是目前使用最多的一种方法。其基本思想是首先将n个样品看成n类(即一类包括一个样品),然后规定样品之间的距离和类与类之间的距离。将距离最近的两类合并为一个新类,在计算新类和其他类之间的距离,再从中找出最近的两类合并,继续下去,最后所有的样品全在一类。将上述并类过程画成聚类图,便可以决定分多少类,每类各有什么样品。
系统聚类法的步骤为:①首先各样品自成一类,这样对n组样品就相当于有n类;②计算各类间的距离,将其中最近的两类进行合并;③计算新类与其余各类的距离,再将距离最近的两类合并;④重复上述的步骤,直到所有的样品都聚为一类时为止。下面以最短距离法为例来说明系统聚类法的过程。最短距离法的聚类步骤如下:规定样品之间的距离,计算样品的两两距离,距离矩阵记为S0,开始视每个样品分别
为一类,这时显然应有D(p,q)dpq;
选择距离矩阵S0中的最小元素,不失一般性,记其为D(p,q),则将Gp与Gq合并为一
新类,记为Gm,有GmGpGq;
计算新类Gm与其他各类的距离,得到新的距离矩阵记为S1;
对S1重复开始进行第②步,…,直到所有样本成为一类为止。值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不止一个
时,则可以将其同时合并。(2)动态聚类法
开始将n个样品粗略地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。此法非常类似于计算方法的迭代法。(3)分解法
它的程序正好和系统聚类相反,开始时所有的样本都在一类,然后用某种最优准则将它分成两类。再用同样准则将这两类各自试图分裂为两类,从中选出一个使目标函数较好者,这样由两类变成了三类。如此下去,一直分裂到每类只有一个样品为止(或用其他停止规则)。(4)加入法
将样品依次输入,每次输入后将它放到当前聚类图的应有位置上,全部输入后,即得聚类图。
3.总结体会聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。比如说现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑,那样是分不出类来的。所以只能对产品的m个指标综合考虑,采用SPSS中的样本聚类方法,就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。聚类分析不仅可以用于样本聚类,还可以用于变量聚类,就是对m个指标进行聚类。因为有时指标太多,不能全部考虑,需要提取出主要因素,而往往指标之间又有很多相关联的地方,所以可以先对变量聚类,然后从每一类中选取出一个代表型的指标。这样就大大减少了指标,并且没有造成巨大的信息丢失。
篇八:聚类分析实验心得体会
.
聚类分析学习体会
聚类分析是多元统计分析中研究“物以类聚〞的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。假设对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。
聚类分析把分类对象按一定规那么分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。
1.聚类统计量在对样品〔变量〕进行分类时,样品〔变量〕之间的相似性是怎么度量?通常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学等。⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。1.1.距离1.数据矩阵
实用文档.
.
设xij为第i个样品的第j个指标,数据矩阵如下表
样品
变量x1
表1数据矩阵
x2
…
xp
1
x11
2
x21
n
xn1
x12
…
x1p
x22
…
x2p
xn2
…
xnp
在上表中,每个样品有p个变量,故每个样品都可以看成是Rp中的一个点,
n个样品就是Rp中的n个点。在Rp中需定义某种距离,第i个样品与第j个样品
之间的距离记为dij,在聚类过程中,相距较近的点倾向于归为一类,相距较远
的点应归属不同的类。所定义的距离dij一般应满足如下四个条件:
⑴dij0,对一切i,j;且d(xi,xj)0当且仅当xixj
⑵dijdji,对一切i,j;
⑶dijdikdkj,对一切i,j,k
2.定量变量的常用的距离对于定量变量,常用的距离有以下几种:⑴闵科夫斯基〔Minkowski〕距离
p
dij(q)[
1
xikxjkq]q
k1
这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:
p
1)当q1时,dij(1)xikxjk称为绝对值距离,常被形象地称为“城市k1
街区〞距离;
实用文档.
.
p
2)当q2时,dij(2)[
1
xik
xjk
2
]2
,称为欧氏距离,这是聚类分析中最
k1
常用的距离;
3〕当
q
时,
dij
()
max
1kp
xik
xjk
,称为切比雪夫距离。
dij(q)在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的
观测单位有关,另一方面它没有考虑指标间的相关性。当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据
计算距离;最常用的标准化处理是:
令
xij
xij
sj
xj
其中xj
1n
ni1
xij
为第
j个变量的样本均值,sj
1nn1i1(xij
xj)2
为第
j个
变量的样本方差。
⑵兰氏〔Lance和Williams〕距离
当xij0〔i1,2,,n;j1,2,,p〕时,第i个样品与第j个样品间的兰
氏距离为
dij(L)
pk1
xikxik
xjkxjk
这个距离与各变量的单位无关,但没有考虑指标间的相关性。
⑶马氏距离〔Mahalanobis〕距离
第i个样品与第j个样品间的马氏距离为
dij(M)(xixj)'S1(xixj)其中xi(xi1,xi2,,xip)',xj(xj1,xj2,xjp),S为样品协方差矩阵。
使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的根本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。
实用文档.
.
⑷斜交空间距离第i个样品与第j个样品间的斜交空间距离定义为
d
ij
1[
p2
pk1
p
(xik
l1
xjk)(xil
1
xjl)rkl]2
其中rkl
是变量
xk
与变量
xl间的相关系数。当
p
个变量互不相关时,
d
ij
dij(2)p
,
即斜交空间距离退化为欧氏距离〔除相差一个常数倍外〕。以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变
量,那么有相应的定义距离的方法。3.定性变量的距离下例只是对名义尺度变量的一种距离定义。
例1某高校举办一个培训班,从学员的资料中得到这样6个变量:性别〔x1〕
取值为男和女;外语语种〔x2〕取值为英、日和俄;专业〔x3〕取值为统计、
会计和金融;职业〔x4〕取值为教师和非教师;居住处〔x5〕取值为校内和校
外;学历〔x6〕取值为本科和本科以下。现有两名学员:
x1〔男,英,统计,非教师,校外,本科〕ˊ
x2(女,英,金融,教师,校外,本科以下)ˊ这两名学员的第二个变量都取值“英〞,称为配合的,第一个变量一个取值为“男〞,另一个取值为“女〞,称为不配合的。一般地,假设记配合的变量数
为m1,不配合的变量数为m2,那么它们之间的距离可定义为
d12
m2m1m2
按此定义本例中
x1
与
x2
之间的距离为
23
。
1.2.匹配系数
当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。
实用文档.
.
第i个样品与第j个样品的匹配系数定义为
p
SijZk,其中k1
1,Zk0,
当xikxjk当xikxjk
显然匹配系数越大,说明两样品越相似。
1.3.相似系数
聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在
对变量进行分类时,常常采用相似系数来度量变量之间的相似性。
设cij表示xi与xj的相似系数,它一般应满足如下三个条件:
⑴cij1,对一切i,j;
⑵cij1,当且仅当存在常数a和b,使得xiaxjb;
⑶cijcji,对一切i,j.最常用的相似系数有以下两种:1.夹角余弦
变量xi与xj的夹角余弦定义为
n
xkixkj
cij(1)
k1n
n
1
[
x
2ki
xk2j]2
k1
k1
它是Rn中变量xi的观测向量(x1i,x2i,,xni)'与变量xj的观测向量
(x1j,x2j,,xnj)'之间夹角ij的余弦函数,即cij(1)cosij.2.相关系数
变量xi与xj的相关系数为
n
(xkixi)(xkjxj)
cij(2)
k1
1
{[
n
(xkixi)2][
n
(xkj
x
j
)
2
2
]}
k1
k1
实用文档.
.
n
n
其中xixki,xjxkj
k1
k1
2.聚类分析
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传
统的统计聚类分析方法包括系统聚类法、分解法、参加法、动态聚类法、
有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法
的聚类分析工具已被参加到许多著名的统计分析软件包中,如SPSS、SAS
等。
从机器学习的角度看,需要由聚类学习算法自动确定标记,而分类学
习的实例或数据对象有类别标记。聚类是观察式学习,而不是例如式的学
习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务,是模式识别
的重要前提。而且聚类能够作为一个独立的工具获得数据的分布状况,观
察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析
还可以作为其他算法〔如分类和定性归纳算法〕的预处理步骤。
2.1.聚类分析的流程及数据来源
聚类分析法的主要流程包括:数据预处理、为衡量数据点间的相似度
定义一个距离函数、聚类或分组和评估输出,用流程图描述如图1所示。
实用文档.
.
图1聚类分析流程图聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别而言,首先要获取关于本机组的大量运行参数,既要有机器平稳运行、正常工作时的数据,更要有机器出现故障时的数据,并且获知故障的类别。这样,由故障类别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据挖掘的训练学习样本库。这里用到的数据就是设备的点检数据。2.2.常用的聚类分析方法〔1〕系统聚类法系统聚类法〔Hierarchicalclusteringmethod〕是目前使用最多的一种方法。其根本思想是首先将n个样品看成n类〔即一类包括一个样品〕,然后规定样品之间的距离和类与类之间的距离。将距离最近的两类合并为一个新类,在计算新类和其他类之间的距离,再从中找出最近的两类合并,继续下去,最后所有的样品全在一类。将上述并类过程画成聚类图,便可以决定分多少类,每类各有什么样品。系统聚类法的步骤为:①首先各样品自成一类,这样对n组样品就相当于有n类;②计算各类间的距离,将其中最近的两类进行合并;③计算新类与其余各类的距离,再将距离最近的两类合并;④重复上述的步骤,直到所有的样品都聚为一类时为止。下面以最短距离法为例来说明系统聚类法的过程。最短距离法的聚类步骤如下:①规定样品之间的距离,计算样品的两两距离,距离矩阵记为S0,开始
视每个样品分别为一类,这时显然应有D(p,q)dpq;
②选择距离矩阵S0中的最小元素,不失一般性,记其为D(p,q),那么将Gp
与Gq合并为一新类,记为Gm,有GmGpGq;
③计算新类Gm与其他各类的距离,得到新的距离矩阵记为S1;
④对S1重复开始进行第②步,…,直到所有样本成为一类为止。值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不止一个时,那么可以将其同时合并。(2)动态聚类法开始将n个样品粗略地分成假设干类,然后用某种最优准那么进行调整,一
实用文档.
.
次又一次地调整,直至不能调整了为止。此法非常类似于计算方法的迭代法。(3)分解法
它的程序正好和系统聚类相反,开始时所有的样本都在一类,然后用某种最优准那么将它分成两类。再用同样准那么将这两类各自试图分裂为两类,从中选出一个使目标函数较好者,这样由两类变成了三类。如此下去,一直分裂到每类只有一个样品为止〔或用其他停止规那么〕。(4)参加法
将样品依次输入,每次输入后将它放到当前聚类图的应有位置上,全部输入后,即得聚类图。
3.总结体会
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的根底上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了开展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。比方说现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑,那样是分不出类来的。所以只能对产品的m个指标综合考虑,采用SPSS中的样本聚类方法,就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。
聚类分析不仅可以用于样本聚类,还可以用于变量聚类,就是对m个指标进行聚类。因为有时指标太多,不能全部考虑,需要提取出主要因素,而往往指标之间又有很多相关联的地方,所以可以先对变量聚类,然后从每一类中选取出一个代表型的指标。这样就大大减少了指标,并且没有造成巨大的信息丧失。
实用文档.
推荐访问:聚类分析实验心得体会 心得体会 实验 分析