中文微博实体链接研究下载_在线阅读_6

is_626623

暂无简介

中文微博实体链接研究 1 国家自然科学基金(61170111, 61202043, 61262058)、中国科学院自动化所复杂系统管理与控制重点实验室开放课题(20110102)和中央高校基本科研业务费专项基金(SWJTU11ZT08)资助收稿日期: 2013-07-05; 修回日期: 2013-09-18; 网络出版时间: 北京大学学报 (自然科学版 ) Acta Scientiarum Naturalium Universitatis Pekinensis doi: 10.13209/j.0479-80...

1 国家自然科学基金(61170111, 61202043, 61262058)、中国科学院自动化所复杂系统管理与控制重点实验室开放课题(20110102)和中央高校基本科研业务费专项基金(SWJTU11ZT08)资助收稿日期: 2013-07-05; 修回日期: 2013-09-18; 网络出版时间: 北京大学学报 (自然科学版 ) Acta Scientiarum Naturalium Universitatis Pekinensis doi: 10.13209/j.0479-8023.2014.014 中文微博实体链接研究朱敏贾真† 左玲吴安峻陈方正柏玉西南交通大学信息科学技术学院 , 成都 610031; † 通信作者 , E-mail: zjia@home.swjtu.edu.cn 摘要针对 2013 年 CCF 自然语言处理与中文计算会议(NLP&CC 2013)中文微博实体链接的任务, 使用 CCF 提供的新浪微博数据作为训练和测试数据, 利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工具, 提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法, 提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的消歧方法。在 2013 年 CCF 中文微博实体链接评测任务中正确结果的准确率为 0.8838, 在 10 个参赛队伍中名列第 3 位。表明该方法有效并可以适应文本中的噪声。关键词微博实体链接; 改进的拼音编辑距离; 后缀词表匹配法; 实体消歧中图分类号 TP391 Research on Entity Linking of Chinese Micro Blog ZHU Min, JIA Zhen†, ZUO Ling, WU Anjun, Chen Fangzheng, Bai Yu School of Information and Science Technology, Southwest Jiaotong University, Chengdu 610031; † Corresponding author, E-mail: zjia@home.swjtu.edu.cn Abstract The authors focus on the task of entity linking of Chinese micro blog in NLP&CC 2013, taking Sina micro blog data provided by CCF as training data and test data, and Yebol Chinese segmentation system as segmentation technology. A way of entity linking is proposed which links from knowledge base to search entity from thesaurus, using improved pinyin edit distance and suffix vocabulary matching method. The authors also propose a disambiguation method, and the method combine entity clustering disambiguation and similar entity disambiguation based on Baidu encyclopedia. In the task of Chinese micro blog entity linking of CCF, this system performs as the third-most- correct-probability system with a correct rate of 0.8838 in totally ten systems. The result indicates that the proposed entity link and entity disambiguation has efficiency and the ability to apply noise in text. Key words micro blog entity linking; improved pinyin edit distance; suffix vocabulary matching method; entity disambiguation 中文微博实体链接是指给定一条微博中的实体指称, 确定这些指称在给定知识库中的目标实体, 实体链接在计算机理解微博的意义以及文本挖掘等方面有重要影响。根据新浪微博 2012 年的统计数据, 在这一年中其注册用户总数达到 5.03 亿, 全年增长率为 73%, 用户每日发微博的数量不计其数。微博信息是一种在社交网络上通过关注机制分享的简短实时信息 , 其内容具有时效性 , 主题包罗万象 , 且拥有海量数据。由于微博的内容过于简短(如微博要求所发内容不超过 140 个字), 用户发言包含各种噪声(简称、错别字或者网络化用语等)因素, 使得实现中文微博的实体链接更加困难。通过分析训练数据与知识库, 发现主要的问题如下: 1) 由于微博内容的简短性, 微博中出现的指称可能是知识库中目标实体的简称 , 亦或是别名 ; 2) 知识库存在噪声 , 严重影响微博实体链接的正确性; 3) 微博用户发言的 2013-11-11 10:25 网络出版地址：http://www.cnki.net/kcms/detail/11.2442.N.20131111.1025.004.html 北京大学学报 (自然科学版 ) 2 内容是包含噪声的, 指称可能含有错别字; 4) 知识库中可能出现多个同名实体 , 例如微博中出现“苹果”一词 , 需要确定这里的“苹果”链接到知识库中的水果苹果还是苹果公司; 5) 微博某指称与知识库中某实体完全匹配, 且知识库中只有这一个相关实体, 但这一实体却不是微博指称所表示的实体, 比如: 微博中的“王维”是一个北京市民, 而知识库中存在的“王维”是古代诗人。为解决以上问题, 本文提出下列方法: 1) 构建同义词表, 解决同一实体不同名称间的对应; 2) 优化知识库, 去除知识库中的噪声; 3) 采用改进的拼音编辑距离算法解决错别字的识别; 4) 提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的方法, 解决实体消歧。 1 相关研究实体链接的核心是计算实体指称项和候选实体的相似度, 选择相似度最大的候选实体作为链接的目标实体[1]。从相似度计算的方式上, 可以分成单一实体链接和协同实体链接。单一实体链接仅考虑实体指称项与目标实体间的语义相似度。Honnibal 等和 Bikel 等将实体指称项的上下文与候选实体的上下文分别表示成 BOW 向量形式 [2–3], 计算向量间的余弦值确定指称项与候选实体的相似度 ,选择相似度最大的候选实体进行链接。Bunescu 等[4]考虑到候选实体的文本内容可能太短, 会导致相似度计算不准确, 加入指称项文本中的词语与候选实体类别的共现特征。Hann[5]认为实体链接与 3 个因素相关: 1) 实体指称项与目标实体之间的关联度; 2) 目标实体在上下文中的语义一致性; 3) 目标实体在语料中的流行度。传统的单一实体链接只是孤立的单个实体的消歧问题, 但是在现实文本存在大量的歧义实体, 如果把每个歧义实体看作一个孤立点, 就忽略了实体之间的语义关联。而协同实体链接的目的就是利用协同式策略综合考虑多个实体间的语义关联, 建立全局语义约束, 从而更好地对于文本内的多个实体进行消歧。Cucerzan[6]考虑不同实体的类别信息, 利用实体类别重合度计算目标实体的语义相似度。实体歧义指的是一个实体指称项可对应到多个真实世界实体的问题, 目前主流的命名实体消歧评测平台主要有两个: WePS(Web People Search)评测和 TAC KBP 的 Entity Linking 评测。WePS 主要针对 Web 人名搜索结果的消歧技术进行评测, 其任务是通过对人名搜索结果进行聚类来消除歧义。杨欣欣等 [7]提出基于网页文本依存特征的人名消歧, 抽取与网页文本中人名关键字实体相关的依存特征及命名实体等辅助特征, 利用二层聚类算法, 根据依存特征将可信度高的文档聚类, 使用辅助特征将剩余文档加到现有聚类结果中, 由此实现人名消歧。针对中文的实体消歧, 缪建明等 [8]综合词语概念的层次性、网络性、结构性特征, 用一种统一的表示式来规范这类特征, 在研究 HNC 表达汉语知识的基础上, 提出一种基于概念关联式的汉语词义消歧方法,用于处理汉语的歧义字段。本文分析微博的特点, 结合单一实体链接与协同实体链接两种链接方法, 考虑到人名消歧以及中文消歧的特点提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的方法。 2 中文微博实体链接与实体消歧 2.1 方法主要流程中文微博实体链接与实体消歧的流程如图 1 所示。预处理包括对知识库优化、同义词表构建、百科词条访问量提取以及微博语句预处理; 实体链接包括从知识库、同义词表查找链接, 并应用改进的拼音编辑距离算法和后缀词表匹配法; 针对实体消歧提出实体聚类消歧与基于百度百科词频的同类实体消歧法相结合的方法。图 1 中文微博实体链接与实体消歧流程 Fig.1 Process of Chinese entity link and entity disambiguation 2.2 预处理 2.2.1 知识库优化中国计算机学会(CCF)提供的知识库中存在较多噪声, 例如部分实体的 category 不准确, 为提高微博实体消歧的正确率, 本文首先对知识库进行修正。统计 facts 属性中的各个二级属性, 我们选出知识库每个类中出现频率最高的 5 个属性作为该类的特征属性 , 以此来寻找并修正知识库中错误的类标。例如在类: 艺术/影视/电视剧中, 出品时间、制片地区、导演、主演、集数是 5 个出现频率最高的属性, 将它们作为特征属性, 记为 Ci, i=1, 2, 3, 4, 5, 当知识库中的实体不属于艺术/影视/电视剧类但是朱敏等 : 中文微博实体链接研究 3 图 2 知识库类标优化 Fig. 2 Category labels optimization of the knowledge base 包含 3 个及以上该类的特征属性, 本文就将该实体的类标修正为艺术/影视/电视剧, 见图 2 知识库类标优化。对于部分实体的类标有交集不易区分的情况, 本文通过统计的方式, 对知识库中的部分类标进行了更新。 2.2.2 同义词表构建微博中出现的指称灵活多变, 可以是知识库中实体的简称、别名, 也可以是人们的网络日常用语, 不同的表述却有相同的指代。本次微博实体链接的知识库数据来自于百度百科, 本文对百度百科词条进行统计分析 , 发现很多已合并为同义词的词条 , 例如 CCTV 与中央电视台已合并为同义词。本文抽取百度百科的所有同义词词条并创建同义词表, 共有 114697 个合并同义词词条。 2.2.3 百科词条访问量提取当微博中的指称项在知识库中有多个同类型候选实体时, 本文认为微博中出现的指称项应当是候选实体中知名度较大的候选实体, 大都在百度百科中具有较高的访问量, 知名度高。本文提取百度百科词条的访问次数作为候选实体知名度的评判标准。 2.2.4 微博语句预处理对于给定的微博语句, 在将它们进行实体消歧前需要进行一系列预处理, 本文采用西南交通大学耶宝智慧中文分词平台[9]对微博进行分词、词性标注、实体标注预处理。表 1 结合一条具体的微博信息, 列举本文所使用到的预处理步骤。微博示例 : 对科比 , 你可以不喜欢他 , 可以批评他 , 但你不能否认他的成就、他对胜利的执着。 “魔术师”约翰逊在推特上写道。“魔术师”约翰逊。 2.3 微博实体链接首先查找知识库判断是否查找成功, 若没有则找同义词表, 若同义词表中不存在则采用改进的拼音编辑距离算法进行知识库查找, 若仍没有查找到则采用后缀词表匹配法查找知识库。 2.3.1 知识库直接查找针对微博中的指称项 name, 直接到知识库中查找相应的实体。首先遍历查找知识库实体的属性值, 再遍历查找实体的<别名> 属性值, 将查找到的实体(不论一个或多个)全部返回。 2.3.2 同义词表查找如果知识库中没有找到相应的实体, 则到同义词表中查找, 若同义词表中存在微博指称项的同义词, 则调用其同义词再到知识库中进行查找, 将查找到的实体(不论一个或多个)全部返回。表 1 微博文本预处理主要步骤 Table 1 Processing of the text of Weibo 步骤序号预处理举例说明 1 name 指称项的标点符号过滤 “魔术师”约翰逊预处理为魔术师约翰逊 2 分词对/p 科比/nrf 你/rr 可以/v 不/d 喜欢/vi 他/rr 可以/v 批评/vn 他/rr 但/c 你/rr 不能/v 否认/vn 他/rr 的/ude1 成就/n 他/rr 对/p 胜利/vn 的 /ude1 执着/nz 魔术师/nnt 约翰逊/nrf 在/p 推特/nz 上/f 写道/v 3 停用词过滤, 只留下名词类的词语, 如 nr、nrf、nnt、nz 等科比/nrf 执着/nz 魔术师/nnt 约翰逊/nrf 推特/nz 4 同一微博话题下经过滤的词进行类别聚类这条微博所在的微博话题中, 也就是上下文中所有出现过的经过过滤的词 , 到知识库中查找这些词对应的 category, 统计出频率较高的 category 北京大学学报 (自然科学版 ) 4 2.3.3 改进的拼音编辑距离算法微博具有很多噪声, 针对错别字现象或外文人名音译时存在不一致等问题, 本文采用改进的拼音编辑距离算法[10]。发音相似的声母和韵母对为集合 Spell={(l, n), (l, r), (z, zh), (c, ch), (an, ang), (en, eng), (in, ing), (ang, ong), (si, ci)}, 拼音 I 与 I ′之间的差异度 DifferenceDegree 用式(1)表示: 0.5, I , , 1, i jSpell I Spell i jDifferenceDegree ′∈ ∈ =⎧⎪= ⎨⎪⎩ 其他 (1) 根据经验值设发音相似的声母或韵母之间的差异度为 0.5。记实体 name 对应于 m 个拼音, 指称对应于 n 个拼音, 对实体 name 和指称的拼音的对应为计算每个拼音 Ii 与 Ii′之间的差异度 DifferenceDegreei, 若 m≠n(m>n), 将指称的 n 个拼音之后以 0 补齐, 差异度记为 1。那么, 实体 name 和对应的指称的差异度 AllDifferenceDegree, 用式(2)表示: )max( , 1 i m n i AllDifferenceDegree DifferenceDegree = = ∑ 。 (2) 若 AllDifferenceDegree≥1,, 判断实体 name 与微博指称不一致 , 返回 wrong; 若 AllDifference- Degree<1, 则判断实体 name 与微博指称一致, 返回该实体 name。例如: 诺维茨基与诺维斯基的差异度为 0.5, 指称项中若是诺维茨基, 则可返回知识库中的诺维斯基。 2.3.4 后缀词表匹配法微博的简短性可能导致某些名称的后缀名被省略, 比如“广州恒大足球俱乐部”在微博中常被描述为“广州恒大”, 针对这一问题, 本文采用后缀词表匹配法。后缀词大致分为两种, 一种是原子后缀词, 一种是普通后缀词[11]。原子后缀词是后缀词不可拆分的最小单位, 比如部、厅、局、队、中央、中心、省、市、洲等, 普通后缀词指以原子后缀词为结尾具有实际意义的机构后缀 , 比如公安部、卫生厅、卫生局、足球队、救助中心等。机构后缀词的获取步骤:1) 利用百度百科的词条分类信息, 获取各分类下的词条名, 通过观察这些词条名, 人工整理原子后缀词, 这个后缀词表涵盖了几乎全部原子后缀词。2) 找出百度词条库里所有以原子后缀词结尾的词条名, 这些词条名包括机构后缀词、机构名和其他词, 通过程序统计每个较短长度的词在比该词长度长的词中出现的次数, 出现次数较多的词就是候选后缀词。3) 这些候选后缀词进行是否常用词的筛选, 共获得 3374 个后缀词。具体算法如下。设微博指称 A, 长度为 N1, 通过后缀词表匹配后得到知识库中已有的指称 Aj′, i=0,1,2…, 长度为 N2(一般情况下 N1< N2), 计算 A 与 Aj′的匹配度 Rj。记 i=0, 从 A 的第一个字符开始, 若在 A 中有连续 n0个字符与 Aj′中连续的 n0个字符 S0相同, 则记为 R0j: 00 0 2 j n R n N = × 。 (3) 更新 i=1, 在 A 的 n0 个字符后继续与 Aj′中字符 S0 之后计算, 若有 n1 个字符相同, 则记为 Rij, 用式 (4)表示, 如此下去, 直至 A 的最后一个字符完成匹配度计算。 11 1 2 j n R n N = × 。 (4) 综上, 指称 Aj′的匹配度 Rj 为 -1 0 j n ij i R R = = ∑ 。 (5) 微博指称 A 的后缀表匹配度 R=max(Rj)。其中, j 对应的指称 Aj′, 若 R>0.5,则将 Aj′记为微博指称 A 的链接实体并返回。 2.4 实体消歧 2.4.1 实体消歧的难点传统的词义消歧任务是在具体上下文环境中确定多义词的确切词义[12], 其词义候选来源于专家的编撰的词典, 目标明确。而微博中的实体消歧, 往往不能提供实体概念列表或者提供实体的概念列表不完整, 给实体消歧增加了难度, 具体如下。 1) 指称项的多样性: 一个实体概念可以用多种命名性指称项指称, 如全称、别名、简称以及拼写错误等。例如: NBA 的篮球明星“勒布朗·詹姆斯” 在微博中可以用勒布朗、詹姆斯、小皇帝、猩猩、 LBJ 等指称。 2) 指称项的歧义性: 一个命名性指称项在不同上下文中可以指称不同的实体概念。例如: 微博中出现“霸王别姬”, 可能指的是张国荣的电影霸王别姬, 也可能指的是歌曲霸王别姬, 也可能是成语霸王别姬, 还可能是菜系中的某道菜名霸王别姬。针对以上问题, 我们提出一种实体聚类消歧与基于百度百科词频的同类实体消歧法。 2.4.2 实体聚类消歧与基于百度百科词频的同类实体消歧法本文采用实体聚类消歧与基于百度百科词频的朱敏等 : 中文微博实体链接研究 5 同类实体消歧法 , 既采用联系上下文特征的方法 , 又应用依靠百度百科词条访问量确定知名度的方法。由于微博内容很短, 很难从单条微博中提取出指称项的相关属性特征, 因此单靠指称项的属性特征与知识库实体的属性特征进行相似度计算，难度很大。本文介绍联系指称项的上下文微博甚至同一微博话题下所有微博中出现过的所有名词性词语 , 对这些词语根据知识库实现聚类, 然后计算指称项的候选实体与各个类的相似度。具体方法如下。 1) 对微博语句预处理得到名词类词语, 根据预处理优化后的知识库中的 category, 将同一微博话题下这些词语进行聚类, 根据聚类后各个类所含名词类词语的数目设定各类的权值λ, 根据经验得到λ 值如表 2 所示。 2) 依次计算 n 个候选实体与同一微博话题下的 m 个类的相似度 Ri(x), 在不影响准确率的基础上为了方便同时也简化消歧工作, 每个候选实体只保留一个最大相似度——与各类相似度值比较后最大的相似度值 , 即 φi=max{Ri(x)}, 得到相似度 φ1 、 φ2,…,φn。例如: 迈克尔·乔丹有 3 个候选实体, 分别属于人物/体育/篮球、人物/体育/足球、人物/科学家 /物理学家, 迈克尔·乔丹所在的这一微博话题下有人物/体育/篮球、体育/球类运动/篮球、地理/地理区域/国家这 3 个类, 第一个候选实体与微博话题下各个类的相似度分别为 R1(x)=1.0, R2(x)=0.67, R3(x)=0, 由于属于人物 /体育 /篮球类的迈克尔·乔丹与微博话题中的人物/体育/篮球类的相似度最大, 在不影响准确率的基础上取相似度的最大值, 也就是取 φ1=1.0。 3) 利用从百度百科抽取的百度词条的访问数量, 确定实体的知名度, 根据经验值设定各个知名度的权值 β 值如表 3 所示。 4) 本文提出各候选实体的链接值计算方法, 见式(6), 根据经验值赋相似度的权值为 0.6, 知名度的权值为 0.4: ( ) 0.6 0.4iS x λ ϕ β= × × + × 。 (6) 选取链接值 S(x)最大的候选实体作为链接实体返回。表 2 各聚类λ Table 2 Weight of clusters 聚类中包含词语数目最多第二第三第四第五权值λ 1.0 0.8 0.7 0.6 0.5 表 3 各知名度权值 β Table 3 Weight of every popularity 访问次数排行第一第二第三第四第五权值 β 1.0 0.8 0.7 0.6 0.5 3 实验结果及分析为了训练实体链接和实体消歧, 本文从新浪微博上按话题(与 CCF 自然语言处理与中文计算会议提供的微博话题相类似的话题)抓取 1000 条微博, 并且根据知识库对每条微博选取 1~2 个词语, 将其人工标注为指称项, 再加上 CCF 自然语言处理与中文计算会议提供的包含 177 条中文微博的中文微博实体链接评测数据集, 这两部分作为我们的训练数据, 实现实体链接和实体消歧的算法

设计

领导形象设计圆作业设计 ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计

。测试数据采用 2013 年 CCF 自然语言处理与中文计算会议提供的中文微博实体链接评测数据集 , 其中共包含 1249 个微博指称项。中文微博实体链接评测结果如表 4 所示。从表 4 中可以看出, NIL 结果的准确率高于 in-KB 结果的准确率, 可见本文所使用的链接方法做到了尽可能在知识库中找到指称项所对应的的链接实体, 但是并没有做到很好实体消歧, 比如有的指称项应当返回 NIL, 但是采用本文的实体消歧方法对实体进行消歧后有可能仍会有返回值, 导致 in-KB 结果的准确率和召回率以及 F1 值不高。总体来说, 本文采用的链接方法对指称项找到对应知识库中的实体具有很好的效果。 4 结论与展望本文介绍了小组参加 NLP &CC 2013 中文微博实体链接评测的基本情况。首先根据 CCF 提供的训表 4 中文微博实体链接评测结果 Table 4 Result of Chinese Weibo entity link task 提交结果编号总体结果 in-KB 结果 NIL 结果正确输出准确率准确率召回率 F1 准确率召回率 F1 11 730 0.8838 0.8602 0.8408 0.8541 0.9075 0.9210 0.9142 北京大学学报 (自然科学版 ) 6 练数据以及根据训练数据的微博话题自己爬取相关话题微博作为训练数据 , 然后将微博语句正规化 , 采用西南交通大学耶宝智慧中文分词平台对微博进行分词, 以便将名词类词性的词实现聚类。从百度百科提取已合并的词条作为同义词, 构建了自己的同义词表; 从百度百科提取机构词构建了机构后缀名表; 从百度百科提取百科词条访问数量作为知名度的参照。实体的链接实现了从知识库、同义词表中查找并应用改进的拼音编辑距离算法、后缀此表匹配法进行实体链接的方法; 实体消歧实现了查找到指称项对应的所有候选实体后, 确定某一个候选实体作为链接实体返回的问题, 其中提出了实体聚类消歧与基于百度百科词频的同类实体消歧法相结合的消歧方法。实验发现, 实体链接的效果很好, 绝大部分实体都能在知识库中找到链接实体。参考文献 [1] 赵军, 刘康, 周光有, 等 . 开放式文本信息抽取 . 中文信息学报, 2011, 25(6): 98–110 [2] Bagga A, Baldwin B. Entity-based cross-document coreferencing using the vector space model // Proc of EMNLP 2008. Stroudsburg, PA: HLT/ACL, 2008: 79–85 [3] Gideon S, Yarowsky D. Unsupervised personal name disambiguation // Proc of CONIL 2003. Stroudsburg, PA: HLT, 2003: 33–40 [4] Bunescu R, Pasca M. Using encyclopedic knowledge for named entity disambiguation // Proc of EMNLP 2006. Stroudsburg, PA: EACL, 2006: 9–16 [5] Han Xianpei, Sun Le. A generative entity-mention model for linking entities with knowledge base // Proc of EMNLP 2011. Stroudsburg, PA: ACL, 2011: 945–954 [6] Cucerzan S. Large-scale named entity disambiguation based on Wikipedia data // Proc of EMNLP 2007. Stroudsburg, PA: ACL, 2007: 708–716 [7] 杨欣欣 , 李培峰 , 朱巧明 . 基于网页文本依存特征的人名消歧. 计算机工程, 2012, 38(19): 133–136 [8] 缪建明 , 张全 . 一种基于概念关联式的词义消岐方法. 计算机科学, 2010, 37(1): 208–210 [9] 西南交通大学耶宝智慧中文分词平台 [OL]. http://www.yebol.com.cn [10] 曹犟 , 邬晓钧 , 夏云庆 , 等 . 基于拼音索引的中文模糊匹配算法 . 清华大学学报 : 自然科学版 , 2009, 49(S1): 1328–1332 [11] 胡文博 , 都云程 , 吕学强 , 等 . 基于多层条件随机场的中文命名实体识别 . 计算机工程与应用 , 2009, 45(1): 163–165 [12] 赵军. 命名实体识别、排歧和跨语言关联. 中文信息学报, 2009, 23(2): 3–13

本文档为【中文微博实体链接研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

中文微博实体链接研究

热门搜索

历史搜索