为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

统计语言模型中句子的语义连贯性判别(已处理)

2018-02-28 5页 doc 19KB 74阅读

用户头像

is_180829

暂无简介

举报
统计语言模型中句子的语义连贯性判别(已处理)统计语言模型中句子的语义连贯性判别(已处理) 第 22卷 第 4期 情 报 学 报 AVo1(22(?4 2003年 8月 ugust,2003 统计语言模型 中旬子 的语义连贯性判别 郭燕慧 钟义信 北京邮电大学人工智能研究 中心 ,北京 100876 摘要 目前统计语言模型在语音识别、机器翻译和 自动文摘等领 域得到了广泛的应用。准确判别通过语言模 型所得到的句子是否连贯、通顺 ,对于语言模型的评测和改进是个很 重要 的问题 。本文采用基于词频统计 的一组 特征项 ,利用决策树 法 自动对生成句 的语...
统计语言模型中句子的语义连贯性判别(已处理)
统计语言模型中句子的语义连贯性判别(已处理) 第 22卷 第 4期 情 报 学 报 AVo1(22(?4 2003年 8月 ugust,2003 统计语言模型 中旬子 的语义连贯性判别 郭燕慧 钟义信 北京邮电大学人工智能研究 中心 ,北京 100876 摘要 目前统计语言模型在语音识别、机器和 自动文摘等领 域得到了广泛的应用。准确判别通过语言模 型所得到的句子是否连贯、通顺 ,对于语言模型的评测和改进是个很 重要 的问题 。本文采用基于词频统计 的一组 特征项 ,利用决策树 法 自动对生成句 的语义连贯性进行评测 ,在 需要生成或识别连贯句 的各 自然语言处理领域 具有广泛 的实用价值 。 关键词 统计语言模型 决策树算法 语义连贯性 IdentifyingW ithin―-SentenceSemanticCoherencein StatisticalLanguageM odels GuoYanhuiandZhongYixin ResearchCenterofIntelligenceofBe~iingUmversityofPostsandTelecommumcations,Be~iing 100876 Abstract Nowdaysstatisticallanugagemodelhasbeenappliedtomnaydomainsuchasspeechrecognition,machinelearn― ing, andautomaticsummarization(Itisextremelyusefultodistinugishcoherentfrom non―coherentsentences,findaspe ctsoflan― ug ag ewhich arenotadequately captured(na d then incorporatehtem into themod eltO impwve conventional sattistical lnaugag e mod els(W eintroduceasetofword―based sattistical featureswhichmeasuresemna ticcoherenceand canbe used to enhna ceany lnaugageapplicationwhere coherentesntencesneedtobe generatedorrecognized(Wetrainadecisionrteeusinghteconstructed featuresettoautomaticallyclassifysentencesascoherentornot( Keywords sattistical lnaugagemod el,decisionrtee, semanticcoherence( 信寻呼顺利过渡 实现”,对 于这种逻辑关 系上 的错 1 前 言 误 ,系统应该能 够 自动识别 ,并加 以纠正 。 国外 已有一 些学者试着把语义信息加入到语 言 近年来语 言模型在 自然语 言处理 的许多领域得 模 型中 。他们从每个句子 中抽取 5个特 征项 ,将 到 了成功 的应用 ,但传统 的语言模 型一个 明显 的不 其直接加入到语 言模 型 中,使得三元语法 的混淆度 足之处就是无法恰 当地达语义上 的连贯性 。它 能 降低 了3,一5,。 简单地描述一个句子 中距离较近 的几个词语 间的联 我们在 自动文摘 系统 的研究 中曾尝试采用统计 系,却无法 区分整句话是真 的 构成该句 的所有词语 机器翻译 的原理 ,通过语言模 型生成文摘句 。实验 同属一个语义范畴 还是假 的 组成句子 的各个词语 结果经人工检查发现 ,该方法生成 的文摘句 即使能 只经过计算机挑选 ,未考 虑语义层面 的含义 。例 大体上覆盖原文句 中的关键词汇 ,其连 贯性还 是不 如 ,原句为 “国信寻呼顺利实现过渡 ”,机器生成 “国 太令人满意。任何一 门语言 中,每个单词都会有 自 收稿 13期 :2002年 4月 20 日 作者简介 :郭燕慧 ,女,1974年生 ,博士研究生 ,主要研究方 向 为 自然语言理解 、自动文摘 。钟义信 ,男 ,1940年生 ,教授 ,博 士生导师 ,主要从事人工智能 、信息论 、智能通信等研究 。 4期 统计语言模型 中旬子 的语义连贯性判别 473 己的上下文环境 ,有 自己的 如动词的格结 在后面的实验 中用到 的特征主要有 以下几类 : 构 和搭配方式 。如何 能让机器 自动识别 生成句 的 1 简单 的统计数字 ,包括 句 中全部词对 的数 连贯性 ,并适 当地加 以修 正 ,是一个有趣 的研 究课 目。 考虑到三元语法能很好地刻 画短距离相关性 , 题 。本文在前人 的基础上 ,以句 中词对 间的关联性 所 以重点应放在对 间隔超过 5个单词 的词对 的计 为主要特征 ,形成一个特征集 ,用分类器 自动 区分手 数 。 写句和机写句 ,判断句子 的语义连贯性 ,准确率可达 2 句子长度。 80,。这对提高语言模型 的精度 ,改善文摘生成 系 3 超过某一相关性 阈值 的词对 占全部词对 的 统 的性能都有重要的意义 。 百分 比。 4 未登录词对―― 三元语法产 生 的句子极有 2 方 法 可能包含即使是在相 当大规模 的语料库 中也难得一 见 的词对 。实验 中我们使用 了未登录词对的数 目和 因为我们主要是利用词对间的语义联系为特征 百分 比信息 。 来衡量句子 的语义连 贯性 ,所 以有必要先对词对 间 5 词对 间的互信息 的语义联 系加 以界定 。 语义上联系紧密 、经常搭配在一起使用的词对 , 可看成是一类特殊 的复合词 。基于统计 的复合词判 2(1 词对 间的语 义联 系 别方法很多 。。],我们这里采用的是互信息。词对 对于词对 间的语义联系,我们采用下面 的计算 x,Y 的互信息计算公式为 : 公式 [。]: MI y CIl??C22一 CI2 ??C2l n ― CIl??C22+ Cl2 ??C2l 这里f ,, , 分别是 词 和词Y在语料库 中出现 其 中 c 是训练语料 中包含某一词对 词 1+词 2 的 的频率 , f ,Y 是词对 ,Y 在语料库 中出现 的频 句子数 ;C:是所有包含词 1的句子个数减 c 所得
/
本文档为【统计语言模型中句子的语义连贯性判别(已处理)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索