为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于本体的元数据管理系统的研究

2013-07-14 4页 pdf 179KB 29阅读

用户头像

is_615329

暂无简介

举报
基于本体的元数据管理系统的研究 116 2009,30 (1) 计算机工程与设计 Computer Engineering and Design 0 引 言 近年来,丰富的数据库产品为不同用户解决实际问题带 来了极大的便利,但同时所带来的异构数据库现象成为数据 共享和集成亟待解决的问题 [1]。在异构数据库系统中,由于各 局部数据库模式是由不同的用户,在不同的时间和地点,基于 不同的数据模型独立地设计,因此对同一数据,不同数据库系 统可能存在不同的描述方法。因此数据描述异构,或者说数 据表示的异构,是异构数据库集成系统必须要解决的问题 [2]。 这种异...
基于本体的元数据管理系统的研究
116 2009,30 (1) 计算机工程与设计 Computer Engineering and Design 0 引 言 近年来,丰富的数据库产品为不同用户解决实际问题带 来了极大的便利,但同时所带来的异构数据库现象成为数据 共享和集成亟待解决的问题 [1]。在异构数据库系统中,由于各 局部数据库模式是由不同的用户,在不同的时间和地点,基于 不同的数据模型独立地设计,因此对同一数据,不同数据库系 统可能存在不同的描述方法。因此数据描述异构,或者说数 据示的异构,是异构数据库集成系统必须要解决的问题 [2]。 这种异构主要表现为命名冲突、格式冲突、结构冲突、数据冲 突和语义冲突等。为了实现用户对多数据库系统的透明统一 访问,需要在多数据库全局层屏蔽这些差异和冲突。 本文提出的元数据管理系统试图为解决以上问题提供一 种方案。在该系统的设计中,通过元数据来描述局部数据库的 模式信息,并在此基础上引入本体来描述元数据中各种术语及 相互关系的确切含义,采用分层的思想管理元数据从而建立语 义统一的全局模式,达到屏蔽底层数据库异构现象的目的。 1 元数据 数据模式是建立在数据源的元数据之上的。元数据(meta- data)即“关于数据的数据”,是关于数据信息的描述 [3],包括数 据的定位信息、数据语义描述、数据结构描述等。元数据的使 用目的在于识别、评价和追踪数据在使用过程中的变化,以实 现数据资源的有效发现、查找、一体化组织和对数据的有效管 理。元数据管理系统对元数据进行存储和管理,其核心是建 立和维护全局模式。只有对数据建立统一的模型后,数据才 能在系统中集成和共享 [4]。 不同数据源提供元数据的能力不同。关于数据库的元数 据记录的是表、视图等信息;而关于表的元数据记录的则是字 段、主键、外键是否可为空等约束条件。一些文档里关联有元 数据,描述性元数据说明文档外在含义的字段,如作者、日期 等;语义级元数据描述文档的内容。当语义级元数据被 化后,可用于计算机自动从数据中抽取语义。图 1给出了文 献[5]中对数据库模式结构的描述。 收稿日期:2008-07-17 E-mail:jiaqichichi@163.com 作者简介:贾琦 (1984-),女,山东乐陵人,硕士研究生,研究方向为数据集成; 郭绍忠 (1964-),女,安徽合肥人,副教授,硕士生导师, 研究方向为分布式系统、海量信息处理; 丁志芳 (1963-),女,湖北麻城人,副教授,研究方向为信息安全。 基于本体的元数据管理系统的研究 贾 琦 1, 郭绍忠 1, 丁志芳 2 (1. 解放军信息工程大学 信息工程学院计算机科学与技术系,河南 郑州 450002; 2. 解放军信息工程大学 理学院,河南 郑州 450001) 摘 要:介绍了运用本体和元数据相结合的思想解决异构数据库集成问题的系统,对基本思路、分层原理和设计方案进行 了阐述。在该系统中,首先通过元数据来描述局部数据库的模式信息,然后引入本体来描述元数据中各种术语及相互关系 的确切含义,采用分层的思想管理元数据从而建立语义统一的全局模式,达到屏蔽底层数据库异构的目的。该系统能从元 数据中充分提取有用信息,利用本体从语义层面解决数据源之间的多种异构问题,极大的简化了对用户的查询处理。 关键词:异构数据库 ; 元数据; 本体 ; 语义异构; 数据集成 中图法分类号:TP391 文献标识码:A 文章编号:1000-7024 (2009) 01-0116-03 Research on ontology-based metadata management system JIA Qi1, GUO Shao-zhong1, DING Zhi-fang2 (1. Department of Computer Science and Technology, Institute of Information Engineering, PLA Information Engineering University, Zhengzhou 450002, China; 2. Institute of Science, PLA Information Engineering University, Zhengzhou 450001, China) Abstract:The idea of combining ontology with metadata can solve problems of heterogeneity of databases integration. The framework of ontology-based metadata management system, the layered principle and the design project is presented. In this system, the schema information of a local database is described by using metadata, and then the concept of ontology is imported to describe the relations between terms of metadata. A layered approach is consided to metadata management and then an semantically unified global schema is provided for users to shield heterogeneity of the rock-bottom databases. By extracting much more useful information from metadata, this system can solve multiform semantic problems of data integration and can deal with the query of databases simply. Key words:heterogeneous databases; metadata; ontology; semantic heterogeneity; data integration 计算机软件与算法 计算机工程与设计 Computer Engineering and Design计算机工程与设计 Computer Engineering and Design 贾琦,郭绍忠,丁志芳:基于本体的元数据管理系统的研究 2009,30 (1) 117 2 本 体 本体(Ontology)最早是一个哲学的范畴,后来随着人工智 能的发展,人工智能界给予了新的定义。当前业界对本体的 定义还没有达成共识,这里采用计算机领域里Studer的观点: 本体是共享概念模型的明确的形式化规范说明。 本体作为一种共享概念的形式规格描述,明确定义了概 念以及概念之间的关系,并通过框架逻辑(frame logics)或描述 逻辑 (description logics,DL) 等形式化系统提供推理。通过描 述和表示特定领域中的概念以及概念之间的关系,本体能够 精确定义该领域中各个概念的语义关系,为领域知识的描述 提供术语,从而确定某一领域的基本知识体系,表达该领域中 的公共知识。 由于本体具有良好的概念层次结构和对逻辑推理的支 持,所以能够从语义层面解决数据之间的异构性 [6-7],将本体与 元数据相结合解决异构数据库的过程可分为 4个步骤: (1)收集信息源中的数据,并把各局部数据库的模式信息 按规定格式存储在元数据库中; (2)分析元数据库之间的语义关系,建立相关领域的全局 本体; (3)查询转换器按照本体中的信息将查询请求转换成规定 的格式,在本体的帮助下从元数据库中匹配出符合条件的数 据集合; (4)检索的结果经过定制处理返回给用户。 不难看出,通过分析元数据间的关系建立本体是整个过 程的中心和难点,在本文后面将对本体的建立进行详细分析。 3 元数据管理系统 3.1 层次化的思想 异构数据库系统中的元数据的数目庞大,层次间及层次 内的关系复杂,如果单纯利用本体传统的形式化思想在同一 层次将这些元数据组织起来会变得繁琐并且不易管理,因此 应该在引入本体理论的同时考虑采用分层的思想组织管理元 数据,整个系统由下向上分为 4层:资源层、领域词典层、映射 层和语义规则层,下面分别就每层进行分析。 3.1.1 资源层 资源层中的“资源”指的是信息内容的模型,即描述底层 数据库中数据的实际储存形态。在资源层中,资源以形式化 的方式存储,一条资源可以表示为 R = {O,P,T},其中,O是资 源 R的逻辑表述,P是资源 R的父亲对象 (在层次中离要描述 的资源最近的外层资源)的逻辑表述,T表示了资源 R的类型 或者模式。据此就可以使用树形结构表示数据源中各资源间 的继承关系或类继承关系。举个简单的例子,在 XML数据源 中存在这样的记录:6675,如果将 元素标签作为资源,那么三元组中的各元素可以这样存 储:O可以表达为对6675的 Xpath表达式,P表达 为的外层标签,而T则可以表达为XML schema。 类似地,关系型资源和面向对象的资源都可以采用这种三元 组的形式表示。 3.1.2 领域词典层 领域词典层是陈述 S的集合,陈述 S描述了领域本体中 概念与概念之间的关系。参照 RDF的思想,一条陈述可以表 示为三元组的形式 S = {sub, prop, val},其中 sub表示陈述中的 概念,prop表示作为概念的属性的关系,val是属性值,表示形 式为概念或者文字说明。通过学习 RDF可以知道,所有的概 念以及概念之间的联系均可以通过这种三元组的形式来描述。 3.1.3 映射层 映射层负责存储各种映射规则,映射规则规定了数据源 中的元素与领域词典中的概念之间的对应规则,以及局部模式 与全局模式的映射规则。因此映射可以分为两类:数据源到领 域词典 (resources-to-concepts) 以及领域词典之间 (concepts-to- concepts)。对于数据源到领域词典的映射,需要考虑 4种情况: (1)一条资源是一个概念的实例; (2)一条资源是一组概念的实例; (3)一组资源是一个概念的实例; (4)一组资源是一组概念的实例。 首先讨论对映射规则的形式化表示MappingRC ={type, ER/ AR,EC/AC},其中 type指明上述 4种情况中的哪一种,ER是一条 或多条等价资源的集合,AR是要聚合的资源的集合,EC表示一 个或多个等价概念的集合,而 AC表示要聚合的概念的集合。 在第一类映射中(包括上述 4种情况),有一条或多条资源 在 ER中,并且 EC可以包含一个或多个概念。第二类情况较 第一类复杂,因为涉及到本体融合的问题。虽然有很多学者 对这一问题进行了讨论,但是引入这些理论会使得映射层变 得过于庞大并且不易处理,另外针对实际需求,第二类情况发 生的概率极低,因此在系统中选择将这种情况简化处理,具体 方法是作为陈述的附加说明存储于领域词典层中。 3.1.4 语义规则层 语义规则层,主要对映射规则的适用范围进行了规定,这 种规定在本体中通常叫做“断言”。每条规定可以形式化表示 为 CX = {E, C, A},其中 E是被监控的事件的集合,C是当环境 被触发时所要检查的条件的集合,而A则表示在符合条件的情 况下所进行的动作的集合。这里采用主动规则 (Active Rules) [8] 的概念,即语义规则可以声明为下述活动性的陈述: ON some event e IF some condition c DO some action a 所以,语义规则可以理解为当且仅当一组条件被满足时, 规定必须执行特定动作。主要考虑的监控事件是访问操作。 要注意的是动作规则可以是嵌套的,这样一个事件的发生就 图 1 数据库模式结构 模式 实体集 联系集 实体标识 语义描述 属性组 主键 候选键 实体 属性标识 语义描述 类型 单位 精度 域约束 能否为空 默认值 访问权限 属性 实体对 联系种类 联系 118 2009,30 (1) 计算机工程与设计 Computer Engineering and Design 可以触发并行的规则共同作用。触发动作的条件有:①环境 条件,例如监控数据源是否活跃;②语义条件,例如访问请求 来自一个语音应用程序,那么除非有特殊说明,否则只需考虑 与语音相关的词典域即可;③逻辑条件,例如对于某访问请求, 局部数据库只能提供部分结果,那么该访问请求就应该被分 解为多个子查询进行。这里的“动作”实际上指的是在相应的 条件满足之后,使用相应的映射规则而进行的操作。 3.2 模块化分 元数据管理系统中,根据各局部数据库建立了记录局部 数据库模式信息的结构化的语义元数据。系统通过维护这些 元数据,记录各数据库之间的关系,并从这些关系和其它资源 相关的信息中收集环境信息来建立统一的全局视图,屏蔽底 层数据库的异构现象。模块化分如图 2所示。 元数据管理系统由资源中介模块和元数据仓库模块组 成,资源中介模块负责应答系统外的访问处理器所发来的访 问请求,通过元数据仓库获得相关元数据信息,并将信息返回 给访问处理器。 资源中介模块负责决定哪些数据源可以为上层的访问请 求提供信息,这是通过对存储关于数据源的元数据的资源目 录模块进行的搜索结果决定的。参数可以在语义规则注释库 中确定的约束的基础上给出。相关的元数据返回给访问处理 器,访问处理器可以直接对数据库进行访问。 元数据仓库模块负责对资源中介模块中用到的多种元数 据进行存储和管理。当用户通过访问处理器发出对信息的访 问请求时,元数据仓库通过资源中介模块提供分析访问请求 所需的信息。元数据仓库为资源中介模块提供资源标识符, 与查询请求相关的资源的属性信息,以及在用户指定的条件 下,其它关于获取数据和分析数据的语义规则信息。元数据 仓库由 4部分组成:资源目录,领域词典库,映射规则库和语 义规则注释库。下面就各部分的内容和作用进行分析。 资源目录使用统一的元模型对每一个数据库的内容描述 进行存储。使用该目录可以索引存储于不同数据源间的资源 属性,从而提高数据的查找效率。这里的“内容描述”包括属 性间的父子关系(面向对象的数据库或者XML数据源)和表— 列的关系(关系型数据库),关于属性的注释,查询属性的语法 信息 (可能要参考 SQL存储过程或者 Xpath表达式)等。该目 录还存储了诸如服务器主机的位置信息等与内容无关的信息。 领域词典库提供了领域本体中的概念,该本体在语义层 面上定义了概念和与研究工作相关的术语(包括概念和关系等 信息),这使得我们可以存储不同的信息模型,并从中选择与要 查询的信息最相关的信息。例如用独立的模型来分别描述保 健病人的信息和临床病人的信息,利用本体就可以对异构数据 源中的病人信息进行集成,得到所有的病人信息,同时产生相 应的环境信息。类似的思路同样适用于信息检索中对信息的 定位,因为可以使用不同的本体模型从不同抽象层次上来描述 同一的领域概念。例如,对于一位研究心脏病的学者的所提出 的访问请求,根据他的身份应该首先从与心脏关系密切的本体 中提取信息。另外,可以对本体进行融合来查找与多领域相关 的概念,但是由于引入本体融合的观念会使得这一部分变得过 于复杂并且不易维护,所以在实现上并没有实施。 映射规则库存储了不同局部本体之间类或属性的映射关 系以及通过本体中的抽象概念所反映的数据源属性之间的联 系。一般来说,一个数据源的属性可能会涉及一个或者多个 本体的属性。这就要求系统管理员必须了解数据源之间的映 射关系并进行说明。另外,基于数据挖掘技术的推理可应用 于语义层面上获得映射信息,系统可以进一步扩展。 在明确的访问条件下,必须有信息说明应该如何理解数 据源的属性,语义规则注释库存储的就是与这种说明有关的 信息。资源中介模块获得访问处理器的访问请求之后,需要 从资源中介模块中获得相关元数据信息。但是对资源中介模 块的使用比非任意的,其中的限制规则就存储于语义规则注 释库中。此外,逻辑推理是建立在确定的访问请求,映射规则 以及相应本体术语间的关系的基础之上的。这样,对数据源 进行访问时,入口参数的个数和类型得以简化,从而提高了语 义的准确性。由此看出,语义规则能够处理不同类型的访问 请求,随着语义规则的增加,系统的灵活性也会得以提高。 3.3 分 析 本文提出的系统在设计过程中通过使用元数据对底层数 据库的模式进行描述的方法,屏蔽了数据库访问方式之间的 异构性。在此基础上对元数据进行分析,根据元数据数量大, 逻辑关系复杂等情况,将本体的单层形式化方式层次化后用 于对元数据的存储和管理,每一层实现本体中的一个元组向 量。与传统的基于本体的元数据管理系统相比,层次化的管 理在清晰明确地表达了元数据层次内以及层次间的语义关系 的同时,简化了元数据的管理,适用于元数据数量大,关系复 杂的情况;同时模块化的思想使得系统中的各部分相互独立 又相互联系,共同构成统一的整体,同时各模块在设计过程中 注重支持逻辑推理,提高了系统的可扩展性。 4 结束语 本文在对元数据和本体的相关知识进行介绍,描述了一 个基于本体的元数据集成方法,给出了系统的设计思路和模块 化分,并分析了该系统的特点和适用情况。在元数据的管理中 引入本体理论,从语义层面屏蔽了底层数据库的多种异构现 象,为上层应用提供了统一的访问方式,从而为数据的共享和 集成提供了基础。下一步的工作重点是对应用该模型的实践 过程中遇到的问题进行分析研究,进一步提高模型的性能。 图 2 系统模块划分 领域词曲库 资源目录 元数据仓库 资源中介模块 元数据管理系统 访问处理器 APIS 语义规则 注释库 映射规则库 (下转第 174页) 174 2009,30 (1) 计算机工程与设计 Computer Engineering and Design K-均值算法采用 matlab 中 stats 工具箱中函数 kmeans.m 求解。两种算法分别运行 500次,其结果如表 1所示。 从表 1看出,在聚类正确率方面,改进伪并行遗传算法远 优于 K-means均值聚类算法。传统聚类方法,因不能有效地处 理局部极值问题,对初始聚类中心的选取有着很大的敏感性, 聚类正确率受到限制;改进伪并行遗传算法因具有很好的处理 局部极值能力和全局搜索能力,因此对初始聚类中心的选取以 及样本的输入次序没有任何要求,同时,聚类正确率上也远优 于常规聚类方法。所以,本文提出的聚类算法是有效的。 5 结束语 本文提出了求解聚类问题的伪并行遗传算法,仿真实验 表明,改进伪并行遗传算法在求解聚类问题上克服了传统的 基于聚类准则的聚类算法对初始聚类中心敏感和容易陷入局 部极值的缺点,同时,在聚类正确率上明显优于了传统的基于 聚类准则的聚类算法。因此,本文提出的伪并行遗传算法的 聚类算法是有效的。但是它在收敛速度上比传统聚类方法要 慢,是下一步改进的方向。 参考文献: [1] 张逸清.基于遗传算法的 K-MEANS聚类改进研究 [D].重庆: 重庆大学,2006:37-40. [2] Duba RO,Hart PE. Pattern classification and scene analysis[M]. New York:John Wiley and Sons,1973. [3] Selim SZ,Alsultmi K. A simulated annealing algorithm for the clustering problem[J].Pattern Recognition, 1991,24(10):1003- 1008. [4] Zülal Güngör, Alper Ü nler. K-harmonic means data clustering with simulated annealing heuristic[J]. Applied Mathematics and Computation, 2007,184(2):199-209. [5] Sandra Paterlini, Thiemo Krink.Differential evolution and par- ticle swarm optimisation in partitional clustering[J].Computa- tional Statistics & Data Analysis,2006,50(5):1220-1247. [6] Swagatam Das,Ajith Abraham,Amit Konar. Automatic kernel clustering with a multi-elitist particle swarm optimization algo- rithm[J].Pattern Recognition Letters,2008,29(5):688-699. [7] 张建华,江贺,张宪超.蚁群聚类算法综述 [J].计算机工程与应 用,2006,42(16):171-175. [8] 李瑞,邱玉辉.基于离散点的蚁群聚类算法的研究[J].计算机科 学,2005,32(6):111-114. [9] Roberts C,Johnston RL,Wilson NT.A genetic algorithm for the structural optimization of Morse clusters [J]. Theoretical Che- mistry Accounts: Theory, Computation, and Modeling(Theore- tica Chimica Acta), 2000,104(2):123-130. [10] Ling Qing, Wu Gang, Yang Zaiyue, et al. Crowding clustering genetic algorithm for multimodal function optimization[J]. Ap- plied Soft Computing, 2008,8(1):88-95. [11] 王小平,曹立明.遗传算法——理论、应用与软件实现[M].西安: 西安交通大学出版社,2002:79-85. [12] 雷英杰,张善文,李继武,等.MATLAB遗传算法工具箱及应用 [M].西安:西安电子科技大学出版社,2005:62-95. 图 8 改进的伪并行遗传算法随遗传代数的 解的变化和种群均值的变化 解的变化; 种群均值的变化 表 1 两种算法性能比较 目标函数最优值 聚类正确率 K-均值算法 270次最优值为 5.3333 230次最优值为 12.8333 54% 改进伪并行遗传算法 460次最优值为 5.3333 40次其它次优值 92% 参考文献: [1] Wong J,Hong J I.Making mashups with marmite: Towards endu- ser programming for the web[C]. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. ACM Press, 2007. [2] 雷琼.基于本体的异构数据集成研究[D].东北大学硕士毕业论 文,2005. [3] Metadata infrastructures seminar preparation[OL]. http://colab. mpdl.mpg.de/mediawiki/Metadata_Infrastructures_Seminar_ Preparation, 2008. [4] Krisna Adiyarta, Naomie Salim. Metadata management model for relational database publication on grid: an ontology based framework[D]. Postgraduate Annual Research Seminar, 2007. [5] 王宗杰,侯贵法,王成耀,等.基于元数据的分布异构数据集成研 究[J].微计算机信息,2007,9(3):211-213. [6] Skarka W. Application of MOKA methodology in generative model creation using CATIA [J]. Engineering Applications of Artificial Intelligence,2007,20(5):677-690. [7] Kim K Y. Ontology-based assembly design and information sha- ring for collaborative product development[J].Computer-Aided Design,2006,38(12):1233-1250. [8] Huaqin Xu, Ying Jin. BioRL: An XML-based active rule lan- guage for biological database constraint management[C].Inter- national Conference on BioMedical Engineering and Informa- tics, 2008:883-887. (上接第 118 页)
/
本文档为【基于本体的元数据管理系统的研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索