科技信息 专
论述
基于本傩帕信息抽取技市砥夯
滨州技术学院 中国石油大学(东营校区)张岩
[摘要]本文讲述基于本体的信息抽取的理论和方法,并以一个基于本体的评语信息的抽取为例,讲解基于本体的信息抽取系统
的过程,并详细介绍本体的建立。
[关键词]本体 信息抽取 评语信息 本体建立
基于本体的信息抽取技术是一种把本体和信息处理技术结合起来
实现信息抽取的方法,已是信息抽取研究的一个热点,而且已经有了很
多研究。基于本体的信息抽取技术根据本体描述的概念、关系、层次结
构、概念关系间的约束等生成抽取规则,然后再根据规则对输入的文档
进行抽取。
1.本体的相关知识
1.1本体的提出
本体最早是一个哲学上的概念,从哲学的范畴来说,本体论是哲学
的一个分支,是一门有关存在及其本质和规律的学科,是客观存在的一
个系统的解释或说明,这个系统不依赖于任何一门特定的描述语言,关
心的是客观现实的抽象本质。本体在英文中表示为ontology,一般认为
本体是共享概念模型的形式化规范说明。
1.2本体的描述语言—0wL
OWL,全称WebOntologyLanguage,是现今W3C的最新
的本体
语言,它保持对原有DAML—ONT/OIL/RDFS的兼容性,又保证了更强大
的语义表达能力,还具有强大地描述逻辑的可判定推理能力。
OWL语言提供三种表达能力依次增强的子语言:OWL—Lite、OW—
I-DL和OWL—Full,主要的分类依据就是它们的表达能力。其中,
OWL—Lite是表达能力最弱的子语言,0wL_Full具有最强的表达能力,
而OWl—DL的表达能力则在它们之间。我们可以认为OWL—DL是
OWL—Lite的扩展,而OWL—FuU是OWL—DL的扩展。
OWL本体的组成与Prot6酌提供的本体相似,基本上,只是在对组
成部分的称呼有一些分别。例如OWL有个体(Individual)、属性(Prop—
erty)和类(Class),而Prot6酌则分别称它们为实例(Instance)、槽(Slot)和
类(Class)。
2.基于本体的评语信息抽取
根据基于ontology的信息抽取系统的一般的过程,结合评语文本的
实际情况,
了一个新的比较符合实际的ontology评语信息抽取系
统,总体结构图如下:
图1基于本体的评语信息抽取系统框图
,根据图示,系统各模块的简介如下:
1)ontology:9ntology是本系统信息抽取的基础,在ontology中,包含
了所描述领域的概念、关系等,除此之外,ontology中还包含了概念、关
系间的约束、关系的定义域和值域、概念之间的层次结构等。ontology是
对领域的描述,基于此ontology的信息抽取就是针对其所描述的领域的
信息抽取。
2)ontology解析:ontology解析是把ontology中描述的概念,关系,层
次结构等解析出来。在本文系统中,是把这些概念、关系存人到数据库
中。数据库表中记录之间的关系反映了ontology中概念间的层次关系。
3)词库编辑:在ontology解析部分中,我们只记录了概念、关系,并
没有记录能代表这些概念、关系的关键字。但是在信息抽取中,最终还
一274一
是要抽取文章中的具体词汇。概念词库编辑就是管理这些概念、关系的
关键字的。用户可以根据实际的需要使用词库编辑来添加、修改、删除
这些关键字,并把管理结果存人数据库。
4)中文分词:汉字是以字为基本的书写单位,词语之间没有明显的
区分标记,中文分词模块主要用来进行词语的分割,并进行词性的标
注,为接下来的预处理模块、匹配模块的奠定基础。
51预处理:预处理模块主要用来进行语法
,对句子中个别特殊
句式进行识别、理解,简化句子的结构,便于更准确地进行信息的抽取。
这是一个非常重要的处理过程,该过程的处理好坏直接影响到系统生
成综合评价文本的质量。
6)信息抽取:这个模块的主要功能是根据预处理后输出的文本与
字典编辑进行匹配,进行信息抽取,并将信息抽取的结果存人数据库。
本系统的运行情况如下:
1)首先建立评语的领域本体,这个一般由领域专家构建的,它包含
了所描述领域的概念、关系、约束等许多信息。本文为了演示,自己建了
一个简单的教师评语本体。
21通过ontology解析器解析领域ontology,将它所包含的领域信息
抽取出来,形成一个本体框架。在本系统中是把这些信息存人到数据
库。
3)将源文本进行中文分词,通过语法分析,简化文中复杂的结构,
特别是针对本课题一些特殊句式、程度副词的抽取等常见问题,提出了
一些处理方法。
4)运行词库编辑模块,它是管理ontology的概念、关系的关键字,它
把这些也存人数据库。
5)将预处理模块的结果与字典编辑模块的关键字进行匹配,将匹
配结果存人数据库的本体框架中。
以上是针对评语文本的信息抽取的工作流程,通过上述过程,可以
将无结构化的评语文档通过信息的抽取自动生成结构化的文本。下面,
详细介绍本系统中的教师评语本体的建立。
图2教师评语本体体系
基于以上的评语本体体系及本体描述语言,将评语本体中的属性
和关系作进一步的描述,以“业务能力”属性为例。
Defcategory业务能力
f
属性:专业知识
:类型字符串数组
:注释“评价教师专业知识的相关的词语”
属性:语占表达
:类型字符串数组
:注释“评价教师语青表达能力的相关的词语”
属性:板书
:类型字符串数组
:注释“评价教师板书好坏的相关的词语”
图3业务能力属性类 (下转第275页)
万方数据
科技信息 专题论述
浅i炎巾药质量的影响因素及控制措旋
山东省金乡县人民医院 马祥洲
[摘 要]中药质量的好坏,直接关系到治疗效果和人民群众身体健康。本文分析了当前影响中药质量的主要因素,并提出了控制中
药质量的相关措施。
[关键词]中药 质量影响控制
中药是中医防治疾病的物质基础,其质量优劣直接关系着千百万
人民身体健康和生命安危。古人云:“虽有良医而药肆多伪药,则良医仍
无济于事,故良医良药,互相辅而行”,即说明了中药质量系中医疗效的
重要保证。目前,中药紧缺品种较多,伪造掺假时有发生,加之中药人员
技术素质参差不齐,滥用、误用,混用现象比较严重,因此必须加强中药
生产、采挖、收购、加工、供应、使用等环节上的质量管理。
1.当前影响中药质量的主要因素
当前影响中药质量的因素繁多,既有因中药本身的特殊性而客观
存在的,也有人为故意造成的。
1.1现有中药质量标准体系不完善。
由于药材的种植、采摘、加工、贮存远未做到标准化,因此质量非常
参差,大大影响了成药的质量稳定性。目前的中药质量标准在很大程度
上是参照西药质量标准的模式建立的,即通过测定某一个或某几个有
效成分的含量来对中药的质量加以控制。这样的质量标准有一定的实
用意义,但对于组成药物多,成分极其复杂的中药来讲,并没有从整体
把握药物,而中药必须作为一个整体加以评价。现有鉴别或含量测定方
法大部分只是针对其指标性成分进行控制,即使达到要求,也不能说明
其质量稳定、一致。
1.2中药材的来源复杂,产地不明
由于地理(±壤j水质)、气候(光照、温度)等自然环境因素的影响,
即使是分布较广的药材,各地所产中药材的质量、规格及有效成分也有
差别。同一药物因产地不同,其化学成分的组成种类有所不同,有效成
分的含量也不一样,导致药材的质量和疗效差别很大。因此在中药材的
使用中历来强调区分产地的重要性。人们在长期的用药实践中对某一
地域优质高效中药的认识形成了中药的道地性,是控制中药质量的一
项独特的综合判别标准。山东的阿胶,四川的川I芎,东北的人参,云南的
茯苓,广东的陈皮,贵州的天麻,宁夏的枸杞等,均为地道优质的中药
材,有效成份含量明显优于其他产地。近些年来,随着市场需求的不断
扩大,许多地方兴起中药材种植热,然而药物在异地引种对药效影响非
常大,异地引种初种时尚与原地品种相近,随着时间推移,由于环境改
变而使品质发生了变化。
1.3采收季节时间不当
中药大都源于天然植物,采收季节时间及生长年限,与中药质量的
好坏有着密切的关系。俗话说“当季是药,过季是草”,足年采与不足年
采以及采收季节掌握不当都会影响疗效。中药采收原则应在其含有效
成分含量最高时采收,如杜仲需10年采剥,人参宜采生长5~8年的,天
麻在冬季时采挖质量好,三七在立秋前后采挖质量好。民间有“三月茵
陈四月蒿,五月砍来当柴烧,九月中旬采麻黄,十月山区五味找,知母、
黄芩全年采,惟独春秋质量高”之说,即充分说明中药材按季采收的重
要意义:按季采收,才能得到优质中药材,在临床发挥最高疗效;如不按
季采收,导致有的中药材疗效降低,甚至无疗效。
1.4加工炮制不规范
中药来源于自然界的植物、动物、矿物,绝大多数要经过加工炮制
后才能应用,中药的加:r-炮制直接影响着药材的质量及疗效。经过炮制
加工,可以消除或降低药物的毒性、烈性或副作用,改变药物的性能,使
之更能适合病情需要,对保证临床用药安全,提高临床疗效具有重要的
意义。中药炮制技术性强,要求严格,同一方法,不同的认识及感官判断
上的差异,炮制品就不一样,必须通过反复研究,从宏观上(形、色、气、
味)和微观上(细胞组织变化、含量测定)制定炮制品质量标准及炮制规
范。目前中药的炮制加工中主要存在当制不制、制不遵法等问题,导致
炮制品低劣,影响质量。
1.5掺杂使假、以次充好
由于中药性形相似、中药鉴定人才匮乏,致使部分伪劣中药材进入
流通渠道而被使用。一些不法分子为追求利润常在中药材中掺杂使假、
以次充好,如黄芪应5~6年生,直径2~3era,其根才可以入药,但现在
有的仅栽种1年,就采收上市_『;杜仲应以生长10~15年以L,皮厚
3~7ram树皮入药,而今有的皮厚仅lmm就采剥【:市了;海螵蛸为体长
13~23cm金乌贼的干燥内壳,而医药市场上有销售的金乌贼长约4~
5em。此外,以黑背白花蛇、金环蛇的幼体冒充金钱白花蛇,以五味子冒
充山萸肉,以马铃薯块茎、芭蕉芋的块茎冒充天麻等也屡见不鲜。这些
伪劣的中药自然影响疗效。
2.保证中药质量的管理控制措施
保证药品的质量,实质是为了保证病人能获得良好的治疗。没有真
材实料、道地优质的药材,中医药的疗效也就没有保证。
2.1建立科学先进的中药质量标准新体系
制定中药规范化的质量标准是保证临床用药安全、有效、稳定可靠、
促进中药现代化和国际化的关键。以道地药材的质量状况作为中药质
量的控制标准,克服现行只测定少数成分来控制中药质量的分析方法
所难以避免的片面性,建立中药客观、可靠、合理、有效的质量评价与质
量控制方法,实现中药质量标准化控制的日标。
2.2把好中药采购关
中药品种较多,来源广泛,性质复杂,真伪优劣并存。要明确认识到
中药采购工作是保证中药质量和疗效的第一一关,严格把好鉴定关,将产
销用储多环节结合起来,杜绝伪劣中药的生产和销售。
2.3规范炮制加T
中药的炮制加工要严格遵法炮制,保证质量,中药炮制要严格遵照
《中圄药典》和《中药炮制规范》规定工艺流程,不能因繁从简,随意改
动。所用炮制的辅料必须配齐,不能任意加减,坚持做到生药不切不制
不用药,炮制不合格不用药。
2.4提高中药人员的业务素质
目前医院中药房普遍存在专业技术人才缺乏,整体业务素质较低。
加快实行执业中药师持证上岗
,定期培训,全面考核,提高中药人
员的业务素质,提高他们的中医中药理论水平和实际操作技能,特别是
中药加工炮制操作技术和中药形状鉴别方面的经验。
(上接第274页)
构建了此本体框架,接下来就可以对此进行信息的抽取,关于教师
评语的源数据来自于某学校的教师测评系统,如:
(源数据)该老师知识渊博,思路清晰,对我们认真负责,课堂气氛活跃,总体|
感觉很不错哦!要是普通话更标准就好了,有时讲话听不太清楚。
图4评语抽取实例源数据
将该评语,利用本体语言形式化可得:
图5本体语言形式化
创建好的评语本体框架如下图所示:
基于本体的信息抽取技术是抽取技术的一个重要研究热点,抽取
重要的信息和知识成为很多行业关注的重要技术,在以后的发展中肯
定会越来越受到关注,应用也会越来越广泛。
∞.TH●婚
■●^tI■^
’鬻黼嘲雠⋯?11一?-≯-Ⅲ譬
●牲}m雌
●*Ⅱ№
图6评语本体框架
参考文献
[1]于江德,李学钰.信息抽取中领域本体的设计与实现⋯.电子科
技大学学报,2008.05:25—28
[2]李凌志,张玉婷基于本体的信息集成研究[J].情报杂志,2008,
01:18-20
[3]马静,吴一占.基于领域本体的信息抽取模式生成与系统实现
[I]情报学报,2008,02:25—27
[4]赵巾国,徐德智本体论及其应用研究[7].四川理工学院学报,
2007,06:36-39
万方数据