为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 基于粗集的混合变量决策树构造算法研究

基于粗集的混合变量决策树构造算法研究

2018-03-20 11页 doc 27KB 9阅读

用户头像

is_633423

暂无简介

举报
基于粗集的混合变量决策树构造算法研究基于粗集的混合变量决策树构造算法研究 第30卷第3期 2007年3月 合肥工业大学(自然科学版) JOURNALOFHEFEIUNIVERSITYOFTECHNOLOGY Vo1.30No.3 Mar.2007 基于粗集的混合变量决策树构造算法研究 胡学钢,张冬艳 (合肥工业大学计算机与信息学院,安徽合肥230009) 摘要:文章提出混合变量决策树结构,并在此基础上提出基于粗集理论的混合变量 决策树构造算法RSH2, 算法在每个结点选择尽可能少的属性明确划分尽可能多的实例,减小了决策树规 模,且易于理解....
基于粗集的混合变量决策树构造算法研究
基于粗集的混合变量决策树构造算法研究 第30卷第3期 2007年3月 合肥工业大学(自然科学版) JOURNALOFHEFEIUNIVERSITYOFTECHNOLOGY Vo1.30No.3 Mar.2007 基于粗集的混合变量决策树构造算法研究 胡学钢,张冬艳 (合肥工业大学计算机与信息学院,安徽合肥230009) 摘要:文章提出混合变量决策树结构,并在此基础上提出基于粗集理论的混合变量 决策树构造算法RSH2, 算法在每个结点选择尽可能少的属性明确划分尽可能多的实例,减小了决策树规 模,且易于理解.将RSH2 算法与ID3算法及基于粗集的单变量决策树算法HACRs进行实验比较,结果明 该算法有良好性能. 关键词:单变量决策树;多变量决策树;粗糙集合;归纳学习 中图分类号:TP18文献标识码:A文章编号:1003—5060(2007}03—0257—04 Onthedecisiontreeinductivealgorithmbasedontheroughsettheory HUXue-gang.ZHANGDong-yan (SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei230009,CNna ) Abstract..Thestructureofthehybriddecisiontreeandtheconstructingalgorithmforthestruct ureare proposedinthispaper.ThehybriddecisiontreealgorithmRSH2,whichiSbasedontheroughs et theory,selectstheattributesasfewaspossiblewhichcanclassifytheinstantsasmanyaspossib le. Thus,thescaleofthedecisiontreewillbediminishedandthetreewillbeeasiertounderstand.In ad— dition,theconditionalinformationentropybasedreductionalgorithmisusedbeforeconstruc tingthe treeSOthattimewillbesaved.ThecomparisonamongthealgorithmsRSH2,ID3andHACRs based ontheroughsetismadewithexperiments,andtheRSH2algorithmisprovedtohavegoodperf orm— ance. Keywords:univariatedecisiontree;multivariatedecisiontree;roughset;inductivelearning 传统决策树构造算法,对每个结点采用启发 式函数(即属性选择判据)选择分裂属性生成子结 点,以获得较为理想的结果.研究人员已提出很 多属性选择判据,如ID3算法的信息熵J,C4.5 的信息增益函数等,这些判据都是基于信息论 度量的,存在种类偏见问题l1J,且容易陷于局部最 优.另外,传统的单变量决策树构造算法在一个 结点只选择一个属性进行分裂,忽略了属性之间 的相互关系,因而可能引起重复子树问题,且某些 属性可能被多次检验J.为此,出现了多变量归 纳学习系统,即在树的各结点选择多个属性的组 合作为分裂属性,一般表现为通过数学或逻辑算 子将一些属性组合起来,形成新的属性作为分裂 属性,因而称这样形成的决策树为多变量决策 树l4J.这种方法可以减小决策树的规模,并且对 于解决属性间的交互作用和重复子树问题有良好 的效果,然而可能会导致搜索空问变大,计算复杂 性增加.比较有代表性的多变量决策树算法的构 造方法及其性能如下:OC1算法采用动荡算法 调整属性的系数来组合属性,由于动荡的顺序和 次数不定,因而存在不确定性.FRINGE算法 用逻辑算子组合属性以构造新的属性,仅允许一 个结点的属性与其父结点或祖父结点的属性合 并.该算法可能会构造出更复杂的决策树.文献 E6]研究了用属性的合取来表示布尔函数的问题, 在算法中必须事先规定合取项的最大值,如选择 不当会影响算法的效率. 由文献[7]提出的粗糙集合理论,从新的视角 收稿日期:2006—02—21 基金项目:安徽省自然科学基金资助项目(050420207) 作者简介:胡学钢(1961--),男,安徽当涂人,博士,合肥工业大学教授,硕士生导师 258合肥工业大学(自然科学版)第30卷 对知识进行了定义,把知识看作是关于论域的划 分,引人等价关系来讨论知识.该理论主要用于 知识的约简及知识依赖性,因而可以作为机 器学习和复杂数据分析的工具.将粗集理论用于 决策树优化已经出现了很多结合点,如初始属性 的约简和预剪枝等,还出现了基于粗集的增量式 决策树,而利用粗集理论作为属性选择判据也得 到了关注并出现了一些算法.文献[3]中利用条 件属性相对于决策属性的核,用相对泛化的概念 进行多变量分裂,可以构造非常简单的树.但是, 当核中的属性较多时,决策树结点中的属性过多, 因而对结点分裂条件的描述十分困难,使所构造 的决策树难以理解.基于粗集的单变量决策树 HACRs算法J,选择能明确分类实例最多的属 性作为结点的分裂属性,然而由于受到属性分类 能力的限制,在很多情况下,单个属性的正域为 空,不能对任何实例明确分类,最终回归到传统的 决策树算法,因而不能达到预期的效果.因此,选 择属性的方法成为重要的问题. 研究表明,单变量决策树的复杂度主要由树 的结点个数决定,而多变量决策树的复杂度主要 由结点中属性的个数决定J.本文提出混合变量 决策树结构及基于粗集的混合变量决策树学习算 法,算法在每个结点根据具体的数据集,选择尽可 能少的属性明确分类尽可能多的实例,以此决定 当前结点分裂属性的个数,因而在某结点可能采 用单变量,也可能采用多变量分裂,故称之为混合 变量决策树. 1粗集理论概述 在粗糙集合中,成员关系不再是一个原始概 念,认为不确定性与成员关系有关L1...下面给出 粗糙集合的几个基本定义,其中,假设知识库 K一(U,R). 定义1设PR且P?j2『,P中的所有等价 关系的交集称为P之上的一种不可区分关系 (indisernibiIityrelation),记作IND(P). 定义2设集合XU,称R(X)一{YI(y EU/IND(R))^(YX))为X的下近似, R(X)一{YI(y?u/IND(R))^(YNx?j2『)) 为X的上近似,BNR(X)一R(X)一R(X)为X 的边界或边界区域.POSR(X)一R(X)称为集 合X的R一正区域. 定义3设PR是等价关系的一个族集, 关系rEP,若IND(P)一IND(P--{r)),则称关 系r在族集P中是可缺的,否则就是不可缺的; 若族集P中的每个关系都是不可缺的,则称族集 P是独立的,否则就是依赖的或非独立的. 定义4若QGP是独立的,且IND(Q)=== IND(P),则称Q是族集P的一个约简.在族集 P中,所有不可缺的关系集合称为族集P的核 (CORE),表示为CORE(P). 2混合变量决策树算法RSH2 2.1相关定理 假设信息系统R一<U,A>,其中U为论域, A=CND为所有属性的集合,C为条件属性,D 为决策属性,CND一. 定理1对于相容决策系统R,设Q为一个 D一约简,则POSQD=U. 证明由约简的定义知Card(POSQ(D))一 Card(POSc(D));又因R是相容决策系统,且 POScD=U,所以POSQD=U.得证. 定理2设C1,C2c=c,Card(POScl(D))? Card(POSq【J(D)). 证明设IND(C)一{X,X,…,X), IND(C2)一{Y1,Y2,…,),IND(D)一{Z,Z2, … ,),由定义可得IND(CUC2)一{Rs:Rs— Xny).其中XEIND(C),y,EIND(C2),从 而可以推出任意Rs—Xny,X.又因为 POSq(D)一U{X:XZ,)(一1,2,…,;J一 1,2,…,).因此,POSq【J(D)一U{Rs:Rs ZJ)(s?*).综上所述PO(D)GPOSquC' (D),命题得证. 为描述方便,将当前状态下属性集能精确分 类的对象集的比例作为属性集分类能力.因此, 可用下式作为条件属性集合P对分类属性Q的 分类能力的描述,即 k—yP(Q)一card c ( a P rd O ( Sup( ) Q)) 定理3设决策属性D有m个等价类L3],令 一 , y{X,:X,?)(i一1,2,…,) , X. ?U/~NIXO' 一 . {XJ:XJ(2=,V) 则U一{Z,Z,…,+)为一个等价关系. 证明见文献[-33. 2.2属性集选择方法 为快速寻找分裂属性集,RSH2算法根据信 息熵对属性进行预排序,求子集时,优先选取信息 熵小的属性.因此,对于属性个数相同的属性子 第3期胡学钢,等:基于粗集的混合变量决策树构造算法研究259 集,前面子集的正域大多数情况下大于后面子集 的正域.设定属性个数i的初始值为1并递增, 逐个寻找个数为i的子集,一旦寻找到相对正域 不为空(即依赖度足>0)的属性组合,后面的组合 就不必再考虑.选择属性集的具体方法如下: fori=1tolREDb(C)l {逐个选取元素个数为i的子集:S REDD(C),fSf:,计算依赖度k,若走> 0,选择S作为当前的结点,break;) 2.3算法描述 一 个信息系统lenses,见表1所列. 表1一个信息系统lenses C D 基于上述定理和算法,下面给出RSH2算法 的一般步骤. 算法RSH2(R): 输入:约简后的信息系统R,其中条件属性c,决 策属性D 输出:决策树T ( 按信息熵递增对属性进行排序; fori:1tolCl {逐个选取元素个数为i的子集S(按属 性信息熵之和递增的顺序选取):sc, fS{=,计算依赖度k,若是>O,选择S 作为当前的结点,break;} 利用定理4划分论域U一{Z,Z2,…, Zm+1}; 标记,,…,为叶结点; If+l<> {令U为Z+中所包含实例的集合; RSH2(R);} Else标记为叶结点; } 对表1所列的lenses数据集,RSH2算法所 构造的决策树如图1所示.其中,共12个结点,7 个叶子结点.用ID3算法构造的决策树如图2所 示,共15个结点,9个叶子结点.从中可以看出, RSH算法构造的决策树结构比ID3算法构造的 决策树简单. 图1RSH算法构造的混合变量决策树 Class=3Class=2Class=1Class=3Class=3 图2ID3算法构造的单变量决策树 3实验 为了比较算法的性能,本文在Matlab平台下 实现了RSH2算法及几种经典算法,并选用UCI 国际机器学习数据库中的6个数据集,比较了几 种算法所构造的决策树的结点数.实验环境为 P42.0G,256M内存,实验结果见表2所列.在 实验中,采用文献[11]提出的CEBARKNC算法 对初始属性进行了约简.除Zoo数据集外,有关 HACRs算法的数据摘自文献[12]. A—l2l2l2l2l2l2l2l2l2l2l212 A—ll22ll22ll22ll22ll22ll22 A,llll2222llll2222llll2222 A—llllllll2222222233333333 000unM" 260合肥工业大学(自然科学gt)第30卷 由实验数据可见,在大部分情况下,HACRs 算法在结点数目上对ID3算法的改进并不明显, 而RSH2算法所构造的决策树的规模要小得多. 另外,本文还比较了HACRs算法和RSH2 算法的时间性能,结果见表3所列.RSH2算法 的时间性能接近于HACRs算法,有时甚至高于 HACRs算法.然而,对Balance和Monks-2数 据集的时间性能不够理想,主要原因是优化过程 中减少的结点数较多.因此,决策树规模显着降 低与时间性能适当下降这一交换是可以接受的. 表2几种算法所构造的决策树的结点数比较 4结论 表3基于粗集的决策树构造算法时间性能比较 RSH2算法构造的混合变量决策树采用混合 变量检验方法,使生成的决策树在结点复杂度尽 可能小的前提下叶子节点明显减少.实验证明, 本文的算法是有效的.在实际应用中,结合领域 知识,用户还可以设定每个结点中分裂属性的最 大和最小个数等参数,以更好地解决实际问题. 因此,本算法可以适用于较多实际问题的解决. 寻找更有效的启发式方法来选择最佳的属性 组合,以及算法时间性能的进一步提高等问题,还 有待进一步研究. 参考文献 [1]QuinlanJRInduction0{decisiontrees[J].Machine Leaming,1986,1:8l一106. [2]QuinlanJR_C4.5:Programsformachinelearning[M]. SanMateo,CA:MorganKaufmannPublisher,1993: 56——102. [3]苗夺谦,王珏.基于粗糙集的多变量决策树构造方法 [J].软件,1997,8(6):425--430. [4]MurthySK,KasifS,SalzbergSASystemforinductionof obliquedecisiontrees[J].JournalofArtificialIntelligence Research,1994,2:l一33. [5]PagalloG.LearningDNFbydecisiontrees[A].Proceedings oftheEleventhInternationalJointConferenceonArtificial Intelligence[C].Detroit,MI:MorganKaufmann,1989: 639—644. [6]RivestRLearningdecisionlists[J].MachineLearning, 1987,2:229—246. [7]PaMak乙Roughsets:theoreticalaspectsofreasoninga— boutdata[M].Netherlands:KluwerAcademicPublish— ers,1991:35—72. [8]WeiJinmao,HuangDao,WangShuqin,eta1.Roughset baseddecisiontree[A].Proceedingsofthe4thworldCon— gressonIntelligentControlandAutomation,Shanghai,P. RChina,2002[c].2002:lO—l4. [9]史忠值.知识发现[M].北京:清华大学出版社,2002: lO,3O. [1O]王国胤.Rough集理论与知识获取[M].西安:西安交通 大学出版社,2001:1--4. [11]王国胤,于洪,杨大春.基于条件信息熵的决策表约简 口].计算机,2002,25(7):759—766. [12]卫金茂.数据挖掘若干问题的研究[D].上海:华东理工大 学自动化研究所,2001. (责任编辑张秋娟)
/
本文档为【基于粗集的混合变量决策树构造算法研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索