为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

第四章聚类分析

2022-01-30 39页 ppt 1MB 2阅读

用户头像 个人认证

青蛙耳朵

暂无简介

举报
第四章聚类分析4.1聚类分析及聚类统计量4.2聚合法聚类分析第四章聚类分析4.3有序样品的聚类—最优分割法4.4应用实例第四章聚类分析4.5复习思考题4.1聚类分析及聚类统计量一、聚类分析的定义聚类分析又称簇群分析,它是按照客体在性质或成因上的亲疏关系,对客体进行定量分类的一种多元统计方法。在岩石的分类、矿物的分类、古生物的分类、石油成因研究、油藏类型研究、地化资料研究中也都有许多分类问题或需用分类方法解决的问题。因此聚类分析被地质工作者广泛使用二、聚类分析的分类根据分类对象(客体)的不同Q型聚类分析:样品R型聚类分析:指标(即变量)有序客...
第四章聚类分析
4.1聚类分析及聚类统计量4.2聚合法聚类分析第四章聚类分析4.3有序样品的聚类—最优分割法4.4应用实例第四章聚类分析4.5复习思考题4.1聚类分析及聚类统计量一、聚类分析的定义聚类分析又称簇群分析,它是按照客体在性质或成因上的亲疏关系,对客体进行定量分类的一种多元统计方法。在岩石的分类、矿物的分类、古生物的分类、石油成因研究、油藏类型研究、地化资料研究中也都有许多分类问题或需用分类方法解决的问题。因此聚类分析被地质工作者广泛使用二、聚类分析的分类根据分类对象(客体)的不同Q型聚类分析:样品R型聚类分析:指标(即变量)有序客体分类无序客体分类从聚类所采用的方法聚合法分裂法客体之间的关系4.1聚类分析及聚类统计量三、聚类统计量1、概念xy02316452345610654321如果采用距离作为指标,那么样品2与3和样品4与5的距离最小,它们各自先聚为一类;其次,样品2,3,1再聚为一类,样品4,5,6又聚合为一类;最后这两类聚合为一大类。分类完毕后以谱系图表示这6个样品的分类结果,从中可以看出6个样品的亲疏关系。例:六个样品各测得两项指标(xi,yi)(i=1,2,…,6),标绘在如图示的二维平面上。谱系图4.1聚类分析及聚类统计量三、聚类统计量1、概念聚类统计量(又称相似性统计量)是用来衡量样品之间或变量之间相似或相关程度的指标。•衡量样品之间相似程度者称为Q型聚类统计量•衡量变量之间相似程度者称为R型聚类统计量如果有n个样品,每个样品观测了m项指标(变量),以xij表示第i个样品的第j项指标,则n个样品m个变量的观测值xij(i=1,2,…,n;j=1,2,…,m)构成一个Xnm的数据矩阵:4.1聚类分析及聚类统计量①矩阵的第i行表示第i个样品m个变量的观测值,可把第i行示为m维空间的一个点或一个矢量。②矩阵的第j列表示第j个变量的n次观测值,可把第j列示为n维空间的一个点或一个矢量。③由①可知,研究样品的相似性把相似程度高的样品归为一类,即所谓的Q型聚类分析,就等价于研究矩阵行与行之间的关系,即对矩阵的行进行归类。④由②可知,研究变量之间的相关关系把相关程度高的变量归为一类,即所谓的R型聚类分析,就等价于研究矩阵列与列之间的关系,即对矩阵的列进行归类。4.1聚类分析及聚类统计量1、常见的相似性统计量(1)距离系数①Q型聚类的距离系数dij把n个样品看成m维空间中的n个样品点,则样品间的亲疏程度,可用它们互相间的距离来衡量。第i个样品[xi1,xi2,…,xim]与第j个样品[xj1,xj2,…,xjm]间的欧氏距离为:为使所求距离在某一确定范围内变化,将第i个样品xi与第j个样品xj间Q型聚类的距离系数定义为:欧氏距离修正欧氏距离4.1聚类分析及聚类统计量任意两样品点距离算出之后,就可得到样品距离系数矩阵D=[dij]nn,(n阶对称矩阵)。显然,这是一个n阶对称矩阵,且d11=d22=d33=…=dnn=0dij值越小,表示两样品点的相似程度越大。②R型聚类的距离系数dij*把m个指标看成n维空间中的向量。第i个指标向量[xi1,xi2,…,xin]与第j指标向量[xj1,xj2,…,xjn]间的欧氏距离为:4.1聚类分析及聚类统计量欧氏距离修正欧氏距离为使所求距离在某一确定范围内变化,将第i个变量xi与第j个变量xj间Q型聚类的距离系数定义为:4.1聚类分析及聚类统计量任意两变量距离算出之后,就可得到指标距离系数矩阵,(m阶对称矩阵)显然,这是一个m阶对称矩阵,且d11=d22=d33=…=dmm=0dij值越小,表示两变量相关程度越大。(2)相似系数cosij①Q型相似系数cosij:常用来度量样品的相似程度。把n个样品看成m维空间中的向量,则第i个样品向量(xi1,xi2,…,xim)与第j个样品向量(xj1,xj2,…,xjm)间的夹角余弦cosij称为此二样品的相似系数,见下式:4.1聚类分析及聚类统计量相似系数:-1cosij1,其值赿接近1,二者的相似程度赿高。把两两样品的相似系数算出来,可得到样品间的相似系数矩阵,见下式:4.1聚类分析及聚类统计量n阶主对角线为1的实对称矩阵②R型相似系数cosij:把m个样品看成n维空间中的向量,则第i个变量向量(x1i,x2i,…,xni)与第j个变量向量(x1j,x2j,…,xnj)间的夹角余弦cosij称为此二变量的相似系数,见下式:4.1聚类分析及聚类统计量相似系数:-1cosij1,其值赿接近1,两个变量的相似程度赿高。把两两变量的相似系数算出来,可得到变量间的相似系数矩阵,见下式:4.1聚类分析及聚类统计量m阶主对角线为1的实对称矩阵4.1聚类分析及聚类统计量(3)相关系数rij,①Q型相关系数:度量样品之间线性相关程度。第i个与第j个样品之间的相关系数见下式,-1rij1,其值赿接近1,说明二者的线性相关程度赿强{若数据已经过标准化,则变量的均值为0,方差为1}。:4.1聚类分析及聚类统计量②R型:度量变量之间线性相关程度。第i个与第j个变量之间的相关系数见下式,-1rij1,其值赿接近1,说明二者的线性相关程度赿强{若数据已经过标准化,则变量的均值为0,方差为1}。:4.2聚合法聚类分析一、聚合法聚类分析的概念、过程、原则、准备1.概念聚合法是将客体类由多变少,直到全部客体合并成一类的一种聚类分析方法。它是目前最常见的聚类分析方法。2.过程聚合法是将客体类由多变少,直到全部客体合并成一类的一种聚类分析方法。它是目前最常见的聚类分析方法。4.2聚合法聚类分析3.原则(1)若选出一对样品在已经分好的组中都未出现过,则把它们形成一个独立的新组。(2)若选出的一对样品中,有一个出现在已经分好的组里,则把另一个样品也加入到该组中去。(3)若选出两个样品,它们分别出现在已经分好的两个组中,则把这两个组联在一起。(4)若选出的一对样品都出现在同一组中,则这对样品就不再分组了。4.2聚合法聚类分析4.准备-数据预处理(1)原因样品的各个指标(即变量)的观测值在量纲和量级上可能不一样,直接使用原始数据,可能突出某些数量级大的指标的作用,压低甚至排除某些量级小的指标的作用。因此,首先要统一指标量纲。(2)方法(详见第二章内容)标准差变换极差变换(极差规格化或极差正规化)4.2聚合法聚类分析二、一步形成法聚合法聚类分析1、原理一步形成法是一种最简单的聚类方法,计算量不大。它由相似性或相似性矩阵出发得到最终的分类结果。这里仅就相似系数作为统计量,介绍这个方法的一般原理:根据相关系数的大小,依次将诸样品归类联结起来,形成一个从小类到大类的分类系统。依次将相关系数最大的两个样品连结成一类,在连结的过程中,要遵循上述四条原则。4.2聚合法聚类分析2、解例南海地区取得干酪根样品6个,每个样品测定了6个指标,分别是:类脂体、壳质体、镜质体、惰质体、H/C原子比和O+S/C原子比,原始数据如表4-5所示。现要求对样品进行分类。2.939.0102530454.671004020401.5510.1540104510.4919.530550158.1315.2254010252.1100252055O+S/CH/C惰质体镜质体壳质体类脂体4.2聚合法聚类分析解:(1)写出原始数据阵(各指标量级差别不大,不必进行数据转换)4.2聚合法聚类分析(2)选择适当的相似统计量如下:本例选用样品间相似系数算得相似系数矩阵=[cosij]x1x6x5x4x3x24.2聚合法聚类分析(3)一次谱系图形成:(a)找出中最大值q(1)max=q45=0.9790,将样品4与样品5聚合为一类,同时划去第五行和第五列。(b)找出中剩余元素的最大值q(2)max=q16=0.9763,划去第六行和第六列。(c)找出中剩余元素的最大值q(3)max=q23=0.9549,划去第三行和第三列。(d)找出中剩余元素的最大值q(4)max=q14=0.9133,同时划去第四行和第四列。(e)找出中剩余元素的最大值q(5)max=q12=0·7524,划去第二行和第二列。4.2聚合法聚类分析聚合归类过程0.7524x2,x3x1,x6,x4,x550.9133x4,x5x1,x640.9549x3x230.9763x6x120.9790x5x41相似系数联结样品联结顺序0.710.90.8456231谱系图a.六个干酪根样品可以分为三类,样品6与1聚为一类;样品4与5聚为一类;样品2与3聚一类。b.一次形成法较简单,但存在着缺点。当两样品聚合,删去标号较大的(或较小的)行和列时,在以后的聚类过程中就损失了这部分信息。(4)说明4.3有序样品的聚类—最优分割法三、聚合归类形成谱系图的逐步形成法(1)建立原始矩阵,计算样品(或变量)间的相似性系数矩阵,挑出关系最密切的样品对(或变量对)。(2)把挑出的成对样品或样品组(变量或变量组)的值做加权平均形成一个新样品(或变量)数据。(3)把原有两个样品或代表样品组(变量或代表变量组)的数据删掉,把新数据放在序号小的样品(变量)数据上。(4)对新形成的样品(变量)数据与剩余样品(变量)数据重新计算相似性系数,再从中挑出关系最密切的样品(变量)对,重复(2),(3),(4),直到把所有样品(变量)归类完为止。(5)最后按归类情况做出谱系图4.3有序样品的聚类—最优分割法一、最优分割把n个有序样品分为k组,有多种分法,其中分后各组内样品差异最小,而各组之间差异最大的的分法称为最优k分割法,相应的结果称为最优k分割。段内变差段直径其中4.3有序样品的聚类—最优分割法S为总离差平方和4.3有序样品的聚类—最优分割法段内离差平方和段间离差平方和对于给定的有序数列,S是个确定的值,因此,若使段内离差平方和S1为最小,则段间离差平方和S2必为最大。由此看来,使段内离差平方和为最小的分割法就是最优分割法。4.3有序样品的聚类—最优分割法二、最优分割实现最优二分割最优三分割定理:最优的三分割之前肯定存在着一个最优的二分割,最优的四分割之前肯定存在着一个最优的三分割,…,最优的k分割之前肯定存在着一个最优的k-1分割,4.3有序样品的聚类—最优分割法三、最优分割的计算步骤1、数据正规化2、计算段内变差矩阵3、最优二分割、三分割、四分割4.3有序样品的聚类—最优分割法四、实例分析段内变差矩阵4.3有序样品的聚类—最优分割法4.3有序样品的聚类—最优分割法4.3有序样品的聚类—最优分割法4.3有序样品的聚类—最优分割法4.3有序样品的聚类—最优分割法4.3有序样品的聚类—最优分割法4.4应用实例教材96页4.5复习思考题复习思考题1.什么是聚类(点群)分析?阐述其基本思想。2.在聚类分析中,为何要对原始数据作数据变换?3.写出常用的几种聚类统计量,并说明如何用它们来刻划样品或变量之间的亲疏关系?4.什么是最优分割法?对有序数列最优分割的统计量是什么?5.试述最优分割的具体计算步骤。
/
本文档为【第四章聚类分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索