基于本体的元数据管理系统的研究下载_在线阅读_4

is_615329

暂无简介

基于本体的元数据管理系统的研究 116 2009,30 (1) 计算机工程与设计 Computer Engineering and Design 0 引言近年来，丰富的数据库产品为不同用户解决实际问题带来了极大的便利，但同时所带来的异构数据库现象成为数据共享和集成亟待解决的问题 [1]。在异构数据库系统中，由于各局部数据库模式是由不同的用户，在不同的时间和地点，基于不同的数据模型独立地设计，因此对同一数据，不同数据库系统可能存在不同的描述方法。因此数据描述异构，或者说数据表示的异构，是异构数据库集成系统必须要解决的问题 [2]。这种异...

116 2009,30 (1) 计算机工程与设计 Computer Engineering and Design 0 引言近年来，丰富的数据库产品为不同用户解决实际问题带来了极大的便利，但同时所带来的异构数据库现象成为数据共享和集成亟待解决的问题 [1]。在异构数据库系统中，由于各局部数据库模式是由不同的用户，在不同的时间和地点，基于不同的数据模型独立地设计，因此对同一数据，不同数据库系统可能存在不同的描述方法。因此数据描述异构，或者说数据

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

示的异构，是异构数据库集成系统必须要解决的问题 [2]。这种异构主要表现为命名冲突、格式冲突、结构冲突、数据冲突和语义冲突等。为了实现用户对多数据库系统的透明统一访问，需要在多数据库全局层屏蔽这些差异和冲突。本文提出的元数据管理系统试图为解决以上问题提供一种方案。在该系统的设计中，通过元数据来描述局部数据库的模式信息，并在此基础上引入本体来描述元数据中各种术语及相互关系的确切含义，采用分层的思想管理元数据从而建立语义统一的全局模式，达到屏蔽底层数据库异构现象的目的。 1 元数据数据模式是建立在数据源的元数据之上的。元数据(meta- data)即“关于数据的数据”，是关于数据信息的描述 [3]，包括数据的定位信息、数据语义描述、数据结构描述等。元数据的使用目的在于识别、评价和追踪数据在使用过程中的变化，以实现数据资源的有效发现、查找、一体化组织和对数据的有效管理。元数据管理系统对元数据进行存储和管理，其核心是建立和维护全局模式。只有对数据建立统一的模型后，数据才能在系统中集成和共享 [4]。不同数据源提供元数据的能力不同。关于数据库的元数据记录的是表、视图等信息；而关于表的元数据记录的则是字段、主键、外键是否可为空等约束条件。一些文档里关联有元数据，描述性元数据说明文档外在含义的字段，如作者、日期等；语义级元数据描述文档的内容。当语义级元数据被

标准

excel标准偏差 excel标准偏差函数 exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载

化后，可用于计算机自动从数据中抽取语义。图 1给出了文献[5]中对数据库模式结构的描述。收稿日期：2008-07-17 E-mail：jiaqichichi@163.com 作者简介：贾琦 (1984－)，女，山东乐陵人，硕士研究生，研究方向为数据集成；郭绍忠 (1964－)，女，安徽合肥人，副教授，硕士生导师，研究方向为分布式系统、海量信息处理；丁志芳 (1963－)，女，湖北麻城人，副教授，研究方向为信息安全。基于本体的元数据管理系统的研究贾琦 1，郭绍忠 1，丁志芳 2 (1. 解放军信息工程大学信息工程学院计算机科学与技术系，河南郑州 450002； 2. 解放军信息工程大学理学院，河南郑州 450001) 摘要：介绍了运用本体和元数据相结合的思想解决异构数据库集成问题的系统，对基本思路、分层原理和设计方案进行了阐述。在该系统中，首先通过元数据来描述局部数据库的模式信息，然后引入本体来描述元数据中各种术语及相互关系的确切含义，采用分层的思想管理元数据从而建立语义统一的全局模式，达到屏蔽底层数据库异构的目的。该系统能从元数据中充分提取有用信息，利用本体从语义层面解决数据源之间的多种异构问题，极大的简化了对用户的查询处理。关键词：异构数据库 ; 元数据; 本体 ; 语义异构; 数据集成中图法分类号：TP391 文献标识码：A 文章编号：1000-7024 (2009) 01-0116-03 Research on ontology-based metadata management system JIA Qi1, GUO Shao-zhong1, DING Zhi-fang2 (1. Department of Computer Science and Technology, Institute of Information Engineering, PLA Information Engineering University, Zhengzhou 450002, China; 2. Institute of Science, PLA Information Engineering University, Zhengzhou 450001, China) Abstract：The idea of combining ontology with metadata can solve problems of heterogeneity of databases integration. The framework of ontology-based metadata management system, the layered principle and the design project is presented. In this system, the schema information of a local database is described by using metadata, and then the concept of ontology is imported to describe the relations between terms of metadata. A layered approach is consided to metadata management and then an semantically unified global schema is provided for users to shield heterogeneity of the rock-bottom databases. By extracting much more useful information from metadata, this system can solve multiform semantic problems of data integration and can deal with the query of databases simply. Key words：heterogeneous databases; metadata; ontology; semantic heterogeneity; data integration 计算机软件与算法计算机工程与设计 Computer Engineering and Design计算机工程与设计 Computer Engineering and Design 贾琦，郭绍忠，丁志芳：基于本体的元数据管理系统的研究 2009,30 (1) 117 2 本体本体(Ontology)最早是一个哲学的范畴，后来随着人工智能的发展，人工智能界给予了新的定义。当前业界对本体的定义还没有达成共识，这里采用计算机领域里Studer的观点：本体是共享概念模型的明确的形式化规范说明。本体作为一种共享概念的形式规格描述，明确定义了概念以及概念之间的关系，并通过框架逻辑(frame logics)或描述逻辑 (description logics，DL) 等形式化系统提供推理。通过描述和表示特定领域中的概念以及概念之间的关系，本体能够精确定义该领域中各个概念的语义关系，为领域知识的描述提供术语，从而确定某一领域的基本知识体系，表达该领域中的公共知识。由于本体具有良好的概念层次结构和对逻辑推理的支持，所以能够从语义层面解决数据之间的异构性 [6-7]，将本体与元数据相结合解决异构数据库的过程可分为 4个步骤： (1)收集信息源中的数据，并把各局部数据库的模式信息按规定格式存储在元数据库中； (2)分析元数据库之间的语义关系，建立相关领域的全局本体； (3)查询转换器按照本体中的信息将查询请求转换成规定的格式，在本体的帮助下从元数据库中匹配出符合条件的数据集合； (4)检索的结果经过定制处理返回给用户。不难看出，通过分析元数据间的关系建立本体是整个过程的中心和难点，在本文后面将对本体的建立进行详细分析。 3 元数据管理系统 3.1 层次化的思想异构数据库系统中的元数据的数目庞大，层次间及层次内的关系复杂，如果单纯利用本体传统的形式化思想在同一层次将这些元数据组织起来会变得繁琐并且不易管理，因此应该在引入本体理论的同时考虑采用分层的思想组织管理元数据，整个系统由下向上分为 4层：资源层、领域词典层、映射层和语义规则层，下面分别就每层进行分析。 3.1.1 资源层资源层中的“资源”指的是信息内容的模型，即描述底层数据库中数据的实际储存形态。在资源层中，资源以形式化的方式存储，一条资源可以表示为 R = {O,P,T}，其中，O是资源 R的逻辑表述，P是资源 R的父亲对象 (在层次中离要描述的资源最近的外层资源)的逻辑表述，T表示了资源 R的类型或者模式。据此就可以使用树形结构表示数据源中各资源间的继承关系或类继承关系。举个简单的例子，在 XML数据源中存在这样的记录：6675，如果将元素标签作为资源，那么三元组中的各元素可以这样存储：O可以表达为对6675的 Xpath表达式，P表达为的外层标签，而T则可以表达为XML schema。类似地，关系型资源和面向对象的资源都可以采用这种三元组的形式表示。 3.1.2 领域词典层领域词典层是陈述 S的集合，陈述 S描述了领域本体中概念与概念之间的关系。参照 RDF的思想，一条陈述可以表示为三元组的形式 S = {sub, prop, val}，其中 sub表示陈述中的概念，prop表示作为概念的属性的关系，val是属性值，表示形式为概念或者文字说明。通过学习 RDF可以知道，所有的概念以及概念之间的联系均可以通过这种三元组的形式来描述。 3.1.3 映射层映射层负责存储各种映射规则，映射规则规定了数据源中的元素与领域词典中的概念之间的对应规则，以及局部模式与全局模式的映射规则。因此映射可以分为两类：数据源到领域词典 (resources-to-concepts) 以及领域词典之间 (concepts-to- concepts)。对于数据源到领域词典的映射，需要考虑 4种情况： (1)一条资源是一个概念的实例； (2)一条资源是一组概念的实例； (3)一组资源是一个概念的实例； (4)一组资源是一组概念的实例。首先讨论对映射规则的形式化表示MappingRC ={type, ER/ AR,EC/AC}，其中 type指明上述 4种情况中的哪一种，ER是一条或多条等价资源的集合，AR是要聚合的资源的集合，EC表示一个或多个等价概念的集合，而 AC表示要聚合的概念的集合。在第一类映射中(包括上述 4种情况)，有一条或多条资源在 ER中，并且 EC可以包含一个或多个概念。第二类情况较第一类复杂，因为涉及到本体融合的问题。虽然有很多学者对这一问题进行了讨论，但是引入这些理论会使得映射层变得过于庞大并且不易处理，另外针对实际需求，第二类情况发生的概率极低，因此在系统中选择将这种情况简化处理，具体方法是作为陈述的附加说明存储于领域词典层中。 3.1.4 语义规则层语义规则层，主要对映射规则的适用范围进行了规定，这种规定在本体中通常叫做“断言”。每条规定可以形式化表示为 CX = {E, C, A}，其中 E是被监控的事件的集合，C是当环境被触发时所要检查的条件的集合，而A则表示在符合条件的情况下所进行的动作的集合。这里采用主动规则 (Active Rules) [8] 的概念，即语义规则可以声明为下述活动性的陈述： ON some event e IF some condition c DO some action a 所以，语义规则可以理解为当且仅当一组条件被满足时，规定必须执行特定动作。主要考虑的监控事件是访问操作。要注意的是动作规则可以是嵌套的，这样一个事件的发生就图 1 数据库模式结构模式实体集联系集实体标识语义描述属性组主键候选键实体属性标识语义描述类型单位精度域约束能否为空默认值访问权限属性实体对联系种类联系 118 2009,30 (1) 计算机工程与设计 Computer Engineering and Design 可以触发并行的规则共同作用。触发动作的条件有：①环境条件，例如监控数据源是否活跃；②语义条件，例如访问请求来自一个语音应用程序，那么除非有特殊说明，否则只需考虑与语音相关的词典域即可；③逻辑条件，例如对于某访问请求，局部数据库只能提供部分结果，那么该访问请求就应该被分解为多个子查询进行。这里的“动作”实际上指的是在相应的条件满足之后，使用相应的映射规则而进行的操作。 3.2 模块化分元数据管理系统中，根据各局部数据库建立了记录局部数据库模式信息的结构化的语义元数据。系统通过维护这些元数据，记录各数据库之间的关系，并从这些关系和其它资源相关的信息中收集环境信息来建立统一的全局视图，屏蔽底层数据库的异构现象。模块化分如图 2所示。元数据管理系统由资源中介模块和元数据仓库模块组成，资源中介模块负责应答系统外的访问处理器所发来的访问请求，通过元数据仓库获得相关元数据信息，并将信息返回给访问处理器。资源中介模块负责决定哪些数据源可以为上层的访问请求提供信息，这是通过对存储关于数据源的元数据的资源目录模块进行的搜索结果决定的。参数可以在语义规则注释库中确定的约束的基础上给出。相关的元数据返回给访问处理器，访问处理器可以直接对数据库进行访问。元数据仓库模块负责对资源中介模块中用到的多种元数据进行存储和管理。当用户通过访问处理器发出对信息的访问请求时，元数据仓库通过资源中介模块提供分析访问请求所需的信息。元数据仓库为资源中介模块提供资源标识符，与查询请求相关的资源的属性信息，以及在用户指定的条件下，其它关于获取数据和分析数据的语义规则信息。元数据仓库由 4部分组成：资源目录，领域词典库，映射规则库和语义规则注释库。下面就各部分的内容和作用进行分析。资源目录使用统一的元模型对每一个数据库的内容描述进行存储。使用该目录可以索引存储于不同数据源间的资源属性，从而提高数据的查找效率。这里的“内容描述”包括属性间的父子关系(面向对象的数据库或者XML数据源)和表— 列的关系(关系型数据库)，关于属性的注释，查询属性的语法信息 (可能要参考 SQL存储过程或者 Xpath表达式)等。该目录还存储了诸如服务器主机的位置信息等与内容无关的信息。领域词典库提供了领域本体中的概念，该本体在语义层面上定义了概念和与研究工作相关的术语(包括概念和关系等信息)，这使得我们可以存储不同的信息模型，并从中选择与要查询的信息最相关的信息。例如用独立的模型来分别描述保健病人的信息和临床病人的信息，利用本体就可以对异构数据源中的病人信息进行集成，得到所有的病人信息，同时产生相应的环境信息。类似的思路同样适用于信息检索中对信息的定位，因为可以使用不同的本体模型从不同抽象层次上来描述同一的领域概念。例如，对于一位研究心脏病的学者的所提出的访问请求，根据他的身份应该首先从与心脏关系密切的本体中提取信息。另外，可以对本体进行融合来查找与多领域相关的概念，但是由于引入本体融合的观念会使得这一部分变得过于复杂并且不易维护，所以在实现上并没有实施。映射规则库存储了不同局部本体之间类或属性的映射关系以及通过本体中的抽象概念所反映的数据源属性之间的联系。一般来说，一个数据源的属性可能会涉及一个或者多个本体的属性。这就要求系统管理员必须了解数据源之间的映射关系并进行说明。另外，基于数据挖掘技术的推理可应用于语义层面上获得映射信息，系统可以进一步扩展。在明确的访问条件下，必须有信息说明应该如何理解数据源的属性，语义规则注释库存储的就是与这种说明有关的信息。资源中介模块获得访问处理器的访问请求之后，需要从资源中介模块中获得相关元数据信息。但是对资源中介模块的使用比非任意的，其中的限制规则就存储于语义规则注释库中。此外，逻辑推理是建立在确定的访问请求，映射规则以及相应本体术语间的关系的基础之上的。这样，对数据源进行访问时，入口参数的个数和类型得以简化，从而提高了语义的准确性。由此看出，语义规则能够处理不同类型的访问请求，随着语义规则的增加，系统的灵活性也会得以提高。 3.3 分析本文提出的系统在设计过程中通过使用元数据对底层数据库的模式进行描述的方法，屏蔽了数据库访问方式之间的异构性。在此基础上对元数据进行分析，根据元数据数量大，逻辑关系复杂等情况，将本体的单层形式化方式层次化后用于对元数据的存储和管理，每一层实现本体中的一个元组向量。与传统的基于本体的元数据管理系统相比，层次化的管理在清晰明确地表达了元数据层次内以及层次间的语义关系的同时，简化了元数据的管理，适用于元数据数量大，关系复杂的情况；同时模块化的思想使得系统中的各部分相互独立又相互联系，共同构成统一的整体，同时各模块在设计过程中注重支持逻辑推理，提高了系统的可扩展性。 4 结束语本文在对元数据和本体的相关知识进行介绍，描述了一个基于本体的元数据集成方法，给出了系统的设计思路和模块化分，并分析了该系统的特点和适用情况。在元数据的管理中引入本体理论，从语义层面屏蔽了底层数据库的多种异构现象，为上层应用提供了统一的访问方式，从而为数据的共享和集成提供了基础。下一步的工作重点是对应用该模型的实践过程中遇到的问题进行分析研究，进一步提高模型的性能。图 2 系统模块划分领域词曲库资源目录元数据仓库资源中介模块元数据管理系统访问处理器 APIS 语义规则注释库映射规则库 (下转第 174页) 174 2009,30 (1) 计算机工程与设计 Computer Engineering and Design K-均值算法采用 matlab 中 stats 工具箱中函数 kmeans.m 求解。两种算法分别运行 500次，其结果如表 1所示。从表 1看出，在聚类正确率方面，改进伪并行遗传算法远优于 K-means均值聚类算法。传统聚类方法，因不能有效地处理局部极值问题，对初始聚类中心的选取有着很大的敏感性，聚类正确率受到限制；改进伪并行遗传算法因具有很好的处理局部极值能力和全局搜索能力，因此对初始聚类中心的选取以及样本的输入次序没有任何要求，同时，聚类正确率上也远优于常规聚类方法。所以，本文提出的聚类算法是有效的。 5 结束语本文提出了求解聚类问题的伪并行遗传算法，仿真实验表明，改进伪并行遗传算法在求解聚类问题上克服了传统的基于聚类准则的聚类算法对初始聚类中心敏感和容易陷入局部极值的缺点，同时，在聚类正确率上明显优于了传统的基于聚类准则的聚类算法。因此，本文提出的伪并行遗传算法的聚类算法是有效的。但是它在收敛速度上比传统聚类方法要慢，是下一步改进的方向。参考文献: [1] 张逸清.基于遗传算法的 K-MEANS聚类改进研究 [D].重庆: 重庆大学,2006:37-40. [2] Duba RO,Hart PE. Pattern classification and scene analysis[M]. New York:John Wiley and Sons,1973. [3] Selim SZ,Alsultmi K. A simulated annealing algorithm for the clustering problem[J].Pattern Recognition, 1991,24(10):1003- 1008. [4] Zülal Güngör, Alper Ü nler. K-harmonic means data clustering with simulated annealing heuristic[J]. Applied Mathematics and Computation, 2007,184(2):199-209. [5] Sandra Paterlini, Thiemo Krink.Differential evolution and par- ticle swarm optimisation in partitional clustering[J].Computa- tional Statistics & Data Analysis,2006,50(5):1220-1247. [6] Swagatam Das,Ajith Abraham,Amit Konar. Automatic kernel clustering with a multi-elitist particle swarm optimization algo- rithm[J].Pattern Recognition Letters,2008,29(5):688-699. [7] 张建华,江贺,张宪超.蚁群聚类算法综述 [J].计算机工程与应用,2006,42(16):171-175. [8] 李瑞,邱玉辉.基于离散点的蚁群聚类算法的研究[J].计算机科学,2005,32(6):111-114. [9] Roberts C,Johnston RL,Wilson NT.A genetic algorithm for the structural optimization of Morse clusters [J]. Theoretical Che- mistry Accounts: Theory, Computation, and Modeling(Theore- tica Chimica Acta), 2000,104(2):123-130. [10] Ling Qing, Wu Gang, Yang Zaiyue, et al. Crowding clustering genetic algorithm for multimodal function optimization[J]. Ap- plied Soft Computing, 2008,8(1):88-95. [11] 王小平,曹立明.遗传算法——理论、应用与软件实现[M].西安: 西安交通大学出版社,2002:79-85. [12] 雷英杰,张善文,李继武,等.MATLAB遗传算法工具箱及应用 [M].西安:西安电子科技大学出版社,2005:62-95. 图 8 改进的伪并行遗传算法随遗传代数的解的变化和种群均值的变化解的变化；种群均值的变化表 1 两种算法性能比较目标函数最优值聚类正确率 K-均值算法 270次最优值为 5.3333 230次最优值为 12.8333 54% 改进伪并行遗传算法 460次最优值为 5.3333 40次其它次优值 92% 参考文献: [1] Wong J,Hong J I.Making mashups with marmite: Towards endu- ser programming for the web[C]. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. ACM Press, 2007. [2] 雷琼.基于本体的异构数据集成研究[D].东北大学硕士毕业论文,2005. [3] Metadata infrastructures seminar preparation[OL]. http://colab. mpdl.mpg.de/mediawiki/Metadata_Infrastructures_Seminar_ Preparation, 2008. [4] Krisna Adiyarta, Naomie Salim. Metadata management model for relational database publication on grid: an ontology based framework[D]. Postgraduate Annual Research Seminar, 2007. [5] 王宗杰,侯贵法,王成耀,等.基于元数据的分布异构数据集成研究[J].微计算机信息,2007,9(3):211-213. [6] Skarka W. Application of MOKA methodology in generative model creation using CATIA [J]. Engineering Applications of Artificial Intelligence,2007,20(5):677-690. [7] Kim K Y. Ontology-based assembly design and information sha- ring for collaborative product development[J].Computer-Aided Design,2006,38(12):1233-1250. [8] Huaqin Xu, Ying Jin. BioRL: An XML-based active rule lan- guage for biological database constraint management[C].Inter- national Conference on BioMedical Engineering and Informa- tics, 2008:883-887. (上接第 118 页)

本文档为【基于本体的元数据管理系统的研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

基于本体的元数据管理系统的研究

热门搜索

历史搜索