为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

中文微博实体链接研究

2013-11-16 6页 pdf 533KB 70阅读

用户头像

is_626623

暂无简介

举报
中文微博实体链接研究 1 国家自然科学基金(61170111, 61202043, 61262058)、中国科学院自动化所复杂系统管理与控制重点实验室开放课题(20110102)和中央高 校基本科研业务费专项基金(SWJTU11ZT08)资助 收稿日期: 2013-07-05; 修回日期: 2013-09-18; 网络出版时间: 北京大学学报 (自然科学版 ) Acta Scientiarum Naturalium Universitatis Pekinensis doi: 10.13209/j.0479-80...
中文微博实体链接研究
1 国家自然科学基金(61170111, 61202043, 61262058)、中国科学院自动化所复杂系统管理与控制重点实验室开放课题(20110102)和中央高 校基本科研业务费专项基金(SWJTU11ZT08)资助 收稿日期: 2013-07-05; 修回日期: 2013-09-18; 网络出版时间: 北京大学学报 (自然科学版 ) Acta Scientiarum Naturalium Universitatis Pekinensis doi: 10.13209/j.0479-8023.2014.014 中文微博实体链接研究 朱敏 贾真† 左玲 吴安峻 陈方正 柏玉 西南交通大学信息科学技术学院 , 成都 610031; † 通信作者 , E-mail: zjia@home.swjtu.edu.cn 摘要 针对 2013 年 CCF 自然语言处理与中文计算会议(NLP&CC 2013)中文微博实体链接的任务, 使用 CCF 提供的新浪微博数据作为训练和测试数据, 利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工 具, 提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法, 提出实体聚类消歧 与基于百度百科词频的同类实体消歧相结合的消歧方法。在 2013 年 CCF 中文微博实体链接评测任务中正确 结果的准确率为 0.8838, 在 10 个参赛队伍中名列第 3 位。表明该方法有效并可以适应文本中的噪声。 关键词 微博实体链接; 改进的拼音编辑距离; 后缀词表匹配法; 实体消歧 中图分类号 TP391 Research on Entity Linking of Chinese Micro Blog ZHU Min, JIA Zhen†, ZUO Ling, WU Anjun, Chen Fangzheng, Bai Yu School of Information and Science Technology, Southwest Jiaotong University, Chengdu 610031; † Corresponding author, E-mail: zjia@home.swjtu.edu.cn Abstract The authors focus on the task of entity linking of Chinese micro blog in NLP&CC 2013, taking Sina micro blog data provided by CCF as training data and test data, and Yebol Chinese segmentation system as segmentation technology. A way of entity linking is proposed which links from knowledge base to search entity from thesaurus, using improved pinyin edit distance and suffix vocabulary matching method. The authors also propose a disambiguation method, and the method combine entity clustering disambiguation and similar entity disambiguation based on Baidu encyclopedia. In the task of Chinese micro blog entity linking of CCF, this system performs as the third-most- correct-probability system with a correct rate of 0.8838 in totally ten systems. The result indicates that the proposed entity link and entity disambiguation has efficiency and the ability to apply noise in text. Key words micro blog entity linking; improved pinyin edit distance; suffix vocabulary matching method; entity disambiguation 中文微博实体链接是指给定一条微博中的实体 指称, 确定这些指称在给定知识库中的目标实体, 实体链接在计算机理解微博的意义以及文本挖掘等 方面有重要影响。根据新浪微博 2012 年的统计数据, 在这一年中其注册用户总数达到 5.03 亿, 全年增 长率为 73%, 用户每日发微博的数量不计其数。微 博信息是一种在社交网络上通过关注机制分享的简 短实时信息 , 其内容具有时效性 , 主题包罗万象 , 且拥有海量数据。由于微博的内容过于简短(如微博 要求所发内容不超过 140 个字), 用户发言包含各种 噪声(简称、错别字或者网络化用语等)因素, 使得实 现中文微博的实体链接更加困难。通过分析训练数 据与知识库, 发现主要的问题如下: 1) 由于微博内 容的简短性, 微博中出现的指称可能是知识库中目 标实体的简称 , 亦或是别名 ; 2) 知识库存在噪声 , 严重影响微博实体链接的正确性; 3) 微博用户发言的 2013-11-11 10:25 网络出版地址:http://www.cnki.net/kcms/detail/11.2442.N.20131111.1025.004.html 北京大学学报 (自然科学版 ) 2 内容是包含噪声的, 指称可能含有错别字; 4) 知识 库中可能出现多个同名实体 , 例如微博中出现“苹 果”一词 , 需要确定这里的“苹果”链接到知识库中 的水果苹果还是苹果公司; 5) 微博某指称与知识库 中某实体完全匹配, 且知识库中只有这一个相关实 体, 但这一实体却不是微博指称所表示的实体, 比 如: 微博中的“王维”是一个北京市民, 而知识库中 存在的“王维”是古代诗人。 为解决以上问题, 本文提出下列方法: 1) 构建 同义词表, 解决同一实体不同名称间的对应; 2) 优 化知识库, 去除知识库中的噪声; 3) 采用改进的拼 音编辑距离算法解决错别字的识别; 4) 提出实体聚 类消歧与基于百度百科词频的同类实体消歧相结合 的方法, 解决实体消歧。 1 相关研究 实体链接的核心是计算实体指称项和候选实体 的相似度, 选择相似度最大的候选实体作为链接的 目标实体[1]。从相似度计算的方式上, 可以分成单一 实体链接和协同实体链接。 单一实体链接仅考虑实体指称项与目标实体间 的语义相似度。Honnibal 等和 Bikel 等将实体指称 项的上下文与候选实体的上下文分别表示成 BOW 向量形式 [2–3], 计算向量间的余弦值确定指称项与 候选实体的相似度 ,选择相似度最大的候选实体进 行链接。Bunescu 等[4]考虑到候选实体的文本内容可 能太短, 会导致相似度计算不准确, 加入指称项文 本中的词语与候选实体类别的共现特征。Hann[5]认 为实体链接与 3 个因素相关: 1) 实体指称项与目标 实体之间的关联度; 2) 目标实体在上下文中的语义 一致性; 3) 目标实体在语料中的流行度。 传统的单一实体链接只是孤立的单个实体的消 歧问题, 但是在现实文本存在大量的歧义实体, 如 果把每个歧义实体看作一个孤立点, 就忽略了实体 之间的语义关联。而协同实体链接的目的就是利用 协同式策略综合考虑多个实体间的语义关联, 建立 全局语义约束, 从而更好地对于文本内的多个实体 进行消歧。Cucerzan[6]考虑不同实体的类别信息, 利 用实体类别重合度计算目标实体的语义相似度。 实体歧义指的是一个实体指称项可对应到多个 真实世界实体的问题, 目前主流的命名实体消歧评 测平台主要有两个: WePS(Web People Search)评测 和 TAC KBP 的 Entity Linking 评测。WePS 主要针 对 Web 人名搜索结果的消歧技术进行评测, 其任务 是通过对人名搜索结果进行聚类来消除歧义。杨欣 欣等 [7]提出基于网页文本依存特征的人名消歧, 抽 取与网页文本中人名关键字实体相关的依存特征及 命名实体等辅助特征, 利用二层聚类算法, 根据依 存特征将可信度高的文档聚类, 使用辅助特征将剩 余文档加到现有聚类结果中, 由此实现人名消歧。 针对中文的实体消歧, 缪建明等 [8]综合词语概念的 层次性、网络性、结构性特征, 用一种统一的表示 式来规范这类特征, 在研究 HNC 表达汉语知识的 基础上, 提出一种基于概念关联式的汉语词义消歧 方法,用于处理汉语的歧义字段。 本文分析微博的特点, 结合单一实体链接与协 同实体链接两种链接方法, 考虑到人名消歧以及中 文消歧的特点提出实体聚类消歧与基于百度百科词 频的同类实体消歧相结合的方法。 2 中文微博实体链接与实体消歧 2.1 方法主要流程 中文微博实体链接与实体消歧的流程如图 1 所 示。预处理包括对知识库优化、同义词表构建、百 科词条访问量提取以及微博语句预处理; 实体链接 包括从知识库、同义词表查找链接, 并应用改进的 拼音编辑距离算法和后缀词表匹配法; 针对实体消 歧提出实体聚类消歧与基于百度百科词频的同类实 体消歧法相结合的方法。 图 1 中文微博实体链接与实体消歧流程 Fig.1 Process of Chinese entity link and entity disambiguation 2.2 预处理 2.2.1 知识库优化 中国计算机学会(CCF)提供的知识库中存在较 多噪声, 例如部分实体的 category 不准确, 为提高 微博实体消歧的正确率, 本文首先对知识库进行修 正。统计 facts 属性中的各个二级属性, 我们选出知 识库每个类中出现频率最高的 5 个属性作为该类的 特征属性 , 以此来寻找并修正知识库中错误的类 标。例如在类: 艺术/影视/电视剧中, 出品时间、制 片地区、导演、主演、集数是 5 个出现频率最高的 属性, 将它们作为特征属性, 记为 Ci, i=1, 2, 3, 4, 5, 当知识库中的实体不属于艺术/影视/电视剧类但是 朱敏等 : 中文微博实体链接研究 3 图 2 知识库类标优化 Fig. 2 Category labels optimization of the knowledge base 包含 3 个及以上该类的特征属性, 本文就将该实体 的类标修正为艺术/影视/电视剧, 见图 2 知识库类 标优化。对于部分实体的类标有交集不易区分的情 况, 本文通过统计的方式, 对知识库中的部分类标 进行了更新。 2.2.2 同义词表构建 微博中出现的指称灵活多变, 可以是知识库中 实体的简称、别名, 也可以是人们的网络日常用语, 不同的表述却有相同的指代。本次微博实体链接的 知识库数据来自于百度百科, 本文对百度百科词条 进行统计分析 , 发现很多已合并为同义词的词条 , 例如 CCTV 与中央电视台已合并为同义词。本文抽 取百度百科的所有同义词词条并创建同义词表, 共 有 114697 个合并同义词词条。 2.2.3 百科词条访问量提取 当微博中的指称项在知识库中有多个同类型候 选实体时, 本文认为微博中出现的指称项应当是候 选实体中知名度较大的候选实体, 大都在百度百科 中具有较高的访问量, 知名度高。本文提取百度百科 词条的访问次数作为候选实体知名度的评判标准。 2.2.4 微博语句预处理 对于给定的微博语句, 在将它们进行实体消歧 前需要进行一系列预处理, 本文采用西南交通大学 耶宝智慧中文分词平台[9]对微博进行分词、词性标 注、实体标注预处理。表 1 结合一条具体的微博信 息, 列举本文所使用到的预处理步骤。 微博示例 : 对科比 , 你可以不喜欢他 , 可以批 评他 , 但你不能否认他的成就、他对胜利的执着。 “魔术师”约翰逊在推特上写道。“魔 术师”约翰逊。 2.3 微博实体链接 首先查找知识库判断是否查找成功, 若没有则 找同义词表, 若同义词表中不存在则采用改进的拼 音编辑距离算法进行知识库查找, 若仍没有查找到 则采用后缀词表匹配法查找知识库。 2.3.1 知识库直接查找 针对微博中的指称项 name, 直接到知识库中查 找 相 应 的 实 体 。 首 先 遍 历 查 找 知 识 库 实 体 的 属性值, 再遍历查找实体的<别名> 属性值, 将查找到的实体(不论一个或多个)全部返回。 2.3.2 同义词表查找 如果知识库中没有找到相应的实体, 则到同义 词表中查找, 若同义词表中存在微博指称项的同义 词, 则调用其同义词再到知识库中进行查找, 将查 找到的实体(不论一个或多个)全部返回。 表 1 微博文本预处理主要步骤 Table 1 Processing of the text of Weibo 步骤序号 预处理 举例说明 1 name 指称项的标点符号过滤 “魔术师”约翰逊预处理为 魔术师 约翰逊 2 分词 对/p 科比/nrf 你/rr 可以/v 不/d 喜欢/vi 他/rr 可以/v 批评/vn 他/rr 但/c 你/rr 不能/v 否认/vn 他/rr 的/ude1 成就/n 他/rr 对/p 胜利/vn 的 /ude1 执着/nz 魔术师/nnt 约翰逊/nrf 在/p 推特/nz 上/f 写道/v 3 停用词过滤, 只留下名词类的词语, 如 nr、nrf、nnt、nz 等 科比/nrf 执着/nz 魔术师/nnt 约翰逊/nrf 推特/nz 4 同一微博话题下经过滤的词进行类别聚类 这条微博所在的微博话题中, 也就是上下文中所有出现过的经过过滤 的词 , 到知识库中查找这些词对应的 category, 统计出频率较高的 category 北京大学学报 (自然科学版 ) 4 2.3.3 改进的拼音编辑距离算法 微博具有很多噪声, 针对错别字现象或外文人 名音译时存在不一致等问题, 本文采用改进的拼音 编辑距离算法[10]。发音相似的声母和韵母对为集合 Spell={(l, n), (l, r), (z, zh), (c, ch), (an, ang), (en, eng), (in, ing), (ang, ong), (si, ci)}, 拼音 I 与 I ′之间的差异度 DifferenceDegree 用式(1)表示: 0.5, I , , 1, i jSpell I Spell i jDifferenceDegree ′∈ ∈ =⎧⎪= ⎨⎪⎩ 其他 (1) 根据经验值设发音相似的声母或韵母之间的差异度 为 0.5。 记实体 name 对应于 m 个拼音, 指称对应于 n 个拼音, 对实体 name 和指称的拼音的对应为计算 每个拼音 Ii 与 Ii′之间的差异度 DifferenceDegreei, 若 m≠n(m>n), 将指称的 n 个拼音之后以 0 补齐, 差异 度记为 1。那么, 实体 name 和对应的指称的差异度 AllDifferenceDegree, 用式(2)表示: )max( , 1 i m n i AllDifferenceDegree DifferenceDegree = = ∑ 。 (2) 若 AllDifferenceDegree≥1,, 判断实体 name 与微博 指 称 不 一 致 , 返 回 wrong; 若 AllDifference- Degree<1, 则判断实体 name 与微博指称一致, 返 回该实体 name。例如: 诺维茨基与诺维斯基的差异 度为 0.5, 指称项中若是诺维茨基, 则可返回知识库 中的诺维斯基。 2.3.4 后缀词表匹配法 微博的简短性可能导致某些名称的后缀名被省 略, 比如“广州恒大足球俱乐部”在微博中常被描述 为“广州恒大”, 针对这一问题, 本文采用后缀词表 匹配法。后缀词大致分为两种, 一种是原子后缀词, 一种是普通后缀词[11]。原子后缀词是后缀词不可拆 分的最小单位, 比如部、厅、局、队、中央、中心、 省、市、洲等, 普通后缀词指以原子后缀词为结尾 具有实际意义的机构后缀 , 比如公安部、卫生厅、 卫生局、足球队、救助中心等。 机构后缀词的获取步骤:1) 利用百度百科的词 条分类信息, 获取各分类下的词条名, 通过观察这 些词条名, 人工整理原子后缀词, 这个后缀词表涵 盖了几乎全部原子后缀词。2) 找出百度词条库里所 有以原子后缀词结尾的词条名, 这些词条名包括机 构后缀词、机构名和其他词, 通过程序统计每个较 短长度的词在比该词长度长的词中出现的次数, 出 现次数较多的词就是候选后缀词。3) 这些候选后缀 词进行是否常用词的筛选, 共获得 3374 个后缀词。 具体算法如下。 设微博指称 A, 长度为 N1, 通过后缀词表匹配 后得到知识库中已有的指称 Aj′, i=0,1,2…, 长度为 N2(一般情况下 N1< N2), 计算 A 与 Aj′的匹配度 Rj。 记 i=0, 从 A 的第一个字符开始, 若在 A 中有连续 n0个字符与 Aj′中连续的 n0个字符 S0相同, 则记为 R0j: 00 0 2 j n R n N = × 。 (3) 更新 i=1, 在 A 的 n0 个字符后继续与 Aj′中字符 S0 之后计算, 若有 n1 个字符相同, 则记为 Rij, 用式 (4)表示, 如此下去, 直至 A 的最后一个字符完成匹 配度计算。 11 1 2 j n R n N = × 。 (4) 综上, 指称 Aj′的匹配度 Rj 为 -1 0 j n ij i R R = = ∑ 。 (5) 微博指称 A 的后缀表匹配度 R=max(Rj)。其中, j 对 应的指称 Aj′, 若 R>0.5,则将 Aj′记为微博指称 A 的链 接实体并返回。 2.4 实体消歧 2.4.1 实体消歧的难点 传统的词义消歧任务是在具体上下文环境中确 定多义词的确切词义[12], 其词义候选来源于专家的 编撰的词典, 目标明确。而微博中的实体消歧, 往往 不能提供实体概念列表或者提供实体的概念列表不 完整, 给实体消歧增加了难度, 具体如下。 1) 指称项的多样性: 一个实体概念可以用多种 命名性指称项指称, 如全称、别名、简称以及拼写 错误等。例如: NBA 的篮球明星“勒布朗·詹姆斯” 在微博中可以用勒布朗、詹姆斯、小皇帝、猩猩、 LBJ 等指称。 2) 指称项的歧义性: 一个命名性指称项在不同 上下文中可以指称不同的实体概念。例如: 微博中 出现“霸王别姬”, 可能指的是张国荣的电影霸王别 姬, 也可能指的是歌曲霸王别姬, 也可能是成语霸 王别姬, 还可能是菜系中的某道菜名霸王别姬。 针对以上问题, 我们提出一种实体聚类消歧与 基于百度百科词频的同类实体消歧法。 2.4.2 实体聚类消歧与基于百度百科词频的同类实 体消歧法 本文采用实体聚类消歧与基于百度百科词频的 朱敏等 : 中文微博实体链接研究 5 同类实体消歧法 , 既采用联系上下文特征的方法 , 又应用依靠百度百科词条访问量确定知名度的方 法。由于微博内容很短, 很难从单条微博中提取出 指称项的相关属性特征, 因此单靠指称项的属性特 征与知识库实体的属性特征进行相似度计算,难度 很大。本文介绍联系指称项的上下文微博甚至同一 微博话题下所有微博中出现过的所有名词性词语 , 对这些词语根据知识库实现聚类, 然后计算指称项 的候选实体与各个类的相似度。具体方法如下。 1) 对微博语句预处理得到名词类词语, 根据预 处理优化后的知识库中的 category, 将同一微博话 题下这些词语进行聚类, 根据聚类后各个类所含名 词类词语的数目设定各类的权值λ, 根据经验得到λ 值如表 2 所示。 2) 依次计算 n 个候选实体与同一微博话题下的 m 个类的相似度 Ri(x), 在不影响准确率的基础上为 了方便同时也简化消歧工作, 每个候选实体只保留 一个最大相似度——与各类相似度值比较后最大的 相 似 度 值 , 即 φi=max{Ri(x)}, 得 到 相 似 度 φ1 、 φ2,…,φn。例如: 迈克尔·乔丹有 3 个候选实体, 分别 属于人物/体育/篮球、人物/体育/足球、人物/科学家 /物理学家, 迈克尔·乔丹所在的这一微博话题下有 人物/体育/篮球、体育/球类运动/篮球、地理/地理区 域/国家这 3 个类, 第一个候选实体与微博话题下各 个 类 的 相 似 度 分 别 为 R1(x)=1.0, R2(x)=0.67, R3(x)=0, 由于属于人物 /体育 /篮球类的迈克尔·乔 丹与微博话题中的人物/体育/篮球类的相似度最大, 在不影响准确率的基础上取相似度的最大值, 也就 是取 φ1=1.0。 3) 利用从百度百科抽取的百度词条的访问数 量, 确定实体的知名度, 根据经验值设定各个知名 度的权值 β 值如表 3 所示。 4) 本文提出各候选实体的链接值计算方法, 见 式(6), 根据经验值赋相似度的权值为 0.6, 知名度 的权值为 0.4: ( ) 0.6 0.4iS x λ ϕ β= × × + × 。 (6) 选取链接值 S(x)最大的候选实体作为链接实体返回。 表 2 各聚类λ Table 2 Weight of clusters 聚类中包含 词语数目 最多 第二 第三 第四 第五 权值λ 1.0 0.8 0.7 0.6 0.5 表 3 各知名度权值 β Table 3 Weight of every popularity 访问次数排行 第一 第二 第三 第四 第五 权值 β 1.0 0.8 0.7 0.6 0.5 3 实验结果及分析 为了训练实体链接和实体消歧, 本文从新浪微 博上按话题(与 CCF 自然语言处理与中文计算会议 提供的微博话题相类似的话题)抓取 1000 条微博, 并且根据知识库对每条微博选取 1~2 个词语, 将其 人工标注为指称项, 再加上 CCF 自然语言处理与中 文计算会议提供的包含 177 条中文微博的中文微博 实体链接评测数据集, 这两部分作为我们的训练数 据, 实现实体链接和实体消歧的算法。 测试数据采用 2013 年 CCF 自然语言处理与中 文计算会议提供的中文微博实体链接评测数据集 , 其中共包含 1249 个微博指称项。 中文微博实体链接评测结果如表 4 所示。从表 4 中可以看出, NIL 结果的准确率高于 in-KB 结果的 准确率, 可见本文所使用的链接方法做到了尽可能 在知识库中找到指称项所对应的的链接实体, 但是 并没有做到很好实体消歧, 比如有的指称项应当返 回 NIL, 但是采用本文的实体消歧方法对实体进行 消歧后有可能仍会有返回值, 导致 in-KB 结果的准 确率和召回率以及 F1 值不高。总体来说, 本文采用 的链接方法对指称项找到对应知识库中的实体具有 很好的效果。 4 结论与展望 本文介绍了小组参加 NLP &CC 2013 中文微博 实体链接评测的基本情况。首先根据 CCF 提供的训 表 4 中文微博实体链接评测结果 Table 4 Result of Chinese Weibo entity link task 提交结 果编号 总体结果 in-KB 结果 NIL 结果 正确输出 准确率 准确率 召回率 F1 准确率 召回率 F1 11 730 0.8838 0.8602 0.8408 0.8541 0.9075 0.9210 0.9142 北京大学学报 (自然科学版 ) 6 练数据以及根据训练数据的微博话题自己爬取相关 话题微博作为训练数据 , 然后将微博语句正规化 , 采用西南交通大学耶宝智慧中文分词平台对微博进 行分词, 以便将名词类词性的词实现聚类。从百度 百科提取已合并的词条作为同义词, 构建了自己的 同义词表; 从百度百科提取机构词构建了机构后缀 名表; 从百度百科提取百科词条访问数量作为知名 度的参照。实体的链接实现了从知识库、同义词表 中查找并应用改进的拼音编辑距离算法、后缀此表 匹配法进行实体链接的方法; 实体消歧实现了查找 到指称项对应的所有候选实体后, 确定某一个候选 实体作为链接实体返回的问题, 其中提出了实体聚 类消歧与基于百度百科词频的同类实体消歧法相结 合的消歧方法。实验发现, 实体链接的效果很好, 绝 大部分实体都能在知识库中找到链接实体。 参考文献 [1] 赵军, 刘康, 周光有, 等 . 开放式文本信息抽取 . 中 文信息学报, 2011, 25(6): 98–110 [2] Bagga A, Baldwin B. Entity-based cross-document coreferencing using the vector space model // Proc of EMNLP 2008. Stroudsburg, PA: HLT/ACL, 2008: 79–85 [3] Gideon S, Yarowsky D. Unsupervised personal name disambiguation // Proc of CONIL 2003. Stroudsburg, PA: HLT, 2003: 33–40 [4] Bunescu R, Pasca M. Using encyclopedic knowledge for named entity disambiguation // Proc of EMNLP 2006. Stroudsburg, PA: EACL, 2006: 9–16 [5] Han Xianpei, Sun Le. A generative entity-mention model for linking entities with knowledge base // Proc of EMNLP 2011. Stroudsburg, PA: ACL, 2011: 945–954 [6] Cucerzan S. Large-scale named entity disambiguation based on Wikipedia data // Proc of EMNLP 2007. Stroudsburg, PA: ACL, 2007: 708–716 [7] 杨欣欣 , 李培峰 , 朱巧明 . 基于网页文本依存特征 的人名消歧. 计算机工程, 2012, 38(19): 133–136 [8] 缪建明 , 张全 . 一种基于概念关联式的词义消岐方 法. 计算机科学, 2010, 37(1): 208–210 [9] 西 南 交 通 大 学 耶 宝 智 慧 中 文 分 词 平 台 [OL]. http://www.yebol.com.cn [10] 曹犟 , 邬晓钧 , 夏云庆 , 等 . 基于拼音索引的中文 模糊匹配算法 . 清华大学学报 : 自然科学版 , 2009, 49(S1): 1328–1332 [11] 胡文博 , 都云程 , 吕学强 , 等 . 基于多层条件随机 场的中文命名实体识别 . 计算机工程与应用 , 2009, 45(1): 163–165 [12] 赵军. 命名实体识别、排歧和跨语言关联. 中文信息 学报, 2009, 23(2): 3–13
/
本文档为【中文微博实体链接研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索