为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 机器翻译系统评测规范2006年版本

机器翻译系统评测规范2006年版本

2013-12-06 10页 pdf 175KB 191阅读

用户头像

is_314878

暂无简介

举报
机器翻译系统评测规范2006年版本 语 言 文 字 规 范 GF 2006 — _______________________________________________________________________________ 机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems) 2006- - 发布 ...
机器翻译系统评测规范2006年版本
语 言 文 字 规 范 GF 2006 — _______________________________________________________________________________ 机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems) 2006- - 发布 2006- - 试行 _______________________________________________________________________________ 中华人民共和国教育部 国家语言文字工作委员会 发布 目 录 前 言 1 适用范围……………………………………………………………(5) 2 规范性引用文件……………………………………………………(5) 3 术语和定义…………………………………………………………(5) 4 评测的一般原则和……………………………………………(6) 5 机器翻译系统的用户类型…………………………………………(6) 6 机器翻译评测题目的编制原则……………………………………(6) 7 机器翻译的评测标准………………………………………………(8) 8 机器翻译评测的其他内容…………………………………………(10) 前 言 本标准规定了机器翻译系统的评测规范。 本标准由教育部语言文字信息管理司提出立项,负责解释。 本标准由教育部语言文字信息管理司归口。 本标准由国家语言文字工作委员会语言文字规范(标准)审定委员会审定。 本标准起草单位:教育部语言文字应用研究所 本标准主要起草人:冯志伟、肖航、富丽、章云帆 1 中华人民共和国教育部 国家语言文字工作委员会 语言文字规范 GF2006 - 机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems) 1 适用范围 本标准规定了机器翻译系统的评测规范。 本标准适用于机器翻译系统的评测以及有关的管理工作。 2 规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准中的条款。 ISO11179-3 信息技术 数据元的规范与标准化 第 3 部分:数据元的基本属性 GB/T 12200.1 汉语信息处理词汇 01 部分:基本术语 GB/T 13725 信息处理用现代汉语分词规范 GB3259-92 中文书刊名称汉语拼音拼写法 GB/T 15834-1995 标点符号用法 GB/T 15835-1995 出版物上数字用法的规定 GB/T 16159-1996 汉语拼音正词法基本规则 第一批异形词整理 第一批异体字整理表 部分计量单位名称统一用字表 中国人名汉语拼音字母拼写法 中国地名汉语拼音字母拼写规则 普通话异读词审音表 3 术语和定义 下列术语和定义适用于本规范。 3.1 信息处理系统(information Processing systems) 基于计算机技术、网络互联技术、现代通讯技术和各种软件技术,集各种理论和方法于 一体,提供信息服务的人机系统,是由人和计算机等共同组成的,能进行信息的收集、传输、 分析、加工、处理、存储、更新和维护的系统。 3.2 评测规范(assessment specifications) 用于评测的规范,包括评测的一般原则、评测内容、评价指标、评测方法和文件格式等。 3.3 自然语言(natural language) 规则是根据当前用法而不是用显式的方式规定的语言。如汉语、英语、德语等。 3.5 中文信息处理(Chinese information processing, CIP) 用计算机对汉语的语音、语法、词汇、语义、语用等信息进行处理,又称汉语信息处理。 2 3.6 语言文字评测(language norms based assessment) 依据语言文字的技术指标体系和有关规范,采用一定的方法和程序,对于自然语言信息 处理系统及其组成要素中与语言文字相关的部分进行评价和。语言文字评测是系统评测 的重要组成部分。 3.7 机器翻译(machine translation, MT) 利用计算机把源语言翻译成目标语言。 3.8 机器翻译系统(machine translation system) 利用计算机把源语言转变成目标语言的软件系统。 4 评测的一般原则和方法 本标准参照使用《文语转换与语音识别系统语言文字评测标准》中规定的自然语言信息 处理系统评测的一般原则和方法。 4.1 评测的原则:机器翻译系统的评测应当遵守自然语言信息处理系统评测的一般原 则,即:公平公正的原则;遵循标准的原则;人机结合的原则;区别对待的原则;灵活柔性 的原则;可操作性的原则。 4.2 评测的方法:机器翻译系统的语言文字评测基本上只涉及系统的外在的总体性能, 因此,主要采用黑箱评测的方法,以人工评测为主,自动评测为辅。 5 机器翻译系统的用户类型 机器翻译的译文质量评测与用户的类型有密切关系,不同类型的用户对译文有不同的要 求。根据用户需求的不同,机器翻译系统一般可以分为如下类型: a. 为浏览者研制的机器翻译(MT for the Watcher,简称 MT-W):其目的是帮助浏览者 查阅外文,对于译文质量要求不高,浏览者可以接受粗糙的译文。 b. 为修订者研制的机器翻译(MT for the Reviser,简称 MT-R):其目的是帮助用户修 订粗糙的译文,粗糙的译文经过修订之后,质量应该比为浏览者研制的机器翻译的译文有所 提高。 c. 为翻译者研制的机器翻译(MT for the Translator,简称 MT-T):其目的是帮助用户进 行在线机器翻译,用户在翻译时可以使用在线机器词典、翻译实例库等,因此,对于译文质 量的要求比较高。 d. 为写作者研制的机器翻译(MT for the Author,简称 MT-A):其目的在于帮助用户进 行翻译或写作,要尽量避免翻译中的歧义,因此,对于译文质量要求更高。 根据上述分类,可以有针对性地对机器翻译系统进行评测,根据用户类型的不同,评测 时考虑不同的评测重点。 6 机器翻译评测题目的编制原则 评测题目是用于机器翻译评测的数据,这些评测题目是从评测题库中抽取的,评测题目 的选取应该遵循以下的基本原则: a. 为了测试机译系统的质量,在外汉机器翻译系统中,对作为源语言的英语、日语或 法语,基本上应该以相应外语的大学教学大纲作为测试题目选取的主要依据,在汉外机器翻 译系统中,对作为源语言的汉语应该以汉语常用句型作为测试题目选取的主要依据。 b. 对于通用机器翻译系统的测试,测试题目中的词汇应该选自一般领域,侧重在社会、 生活、政治、经济、常识等方面,不出冷僻的词,也不出专业性很强的术语。对于专业机器 翻译系统的测试,测试题目中的词汇和语法结构应该体现出不同专业领域的特点。 3 c. 测试题目中可以包含少量的固定词组,但是,这些固定词组应该是常用的,不选罕 用的俗语和谚语。 d. 测试题目应该注意区别兼类词:兼类词是具有不同词类的词,在机器翻译中应该加 以区分,使得一个单词只有一个词类标记。区别兼类词是词性标注的基本问题。 例如,在英语中,face, use 是“动词-名词”兼类词(V-N 兼类词), may, can, will 是“助 动词-名词”兼类词(AUX-N 兼类词),机器翻译系统应该加以区别: face: The houses face the park. (V) She pulled a long face. (N) attack: The enemy could attack at night. (V) The city came under attack during the night.(N) May: May I help you? (AUX) May Day is first day of May. (N) can: She can speak German. (AUX) He opened a can of beans. (N) will: It will rain tomorrow. (AUX) Have you made your will yet? (N) e. 测试题目应该注意区别多义词或同音词; 多义词是具有多个意义的同一个词,在机器翻译中应该注意区分。 例如,英语的 doctor 是多义词,可以翻译为“医生”,也可以翻译为“博士”,机器翻 译系统应该加以区别: John is a medical doctor.(doctor 应翻译为“医生” ) John is a doctor of philosophy.(doctor 应翻译为“博士” ) 同音词是指词形相同而意义不同的两个或两个以上的词。在词源学中,多义词和同音词 的区分是重要的,同音词往往有不同的来源,而多义词则只有同一个来源,往往是由于词义 的引申而形成的。但是,在机器翻译中,多义词和同音词在语言学上的这种差异是不重要的, 关键是要把不同的意义区别开来。 例如,英语的 bank 是同音词,其意义可以是“河岸”,也可以是“银行”,机器翻译系 统应该加以区别: He looked at the river bank.(bank 应翻译为“河岸” ) He looked at the money bank.(bank 应翻译为“银行” ) f. 测试题目应该有一定数量的用于区别结构歧义的句子,以便测试机器翻译系统分析 结构歧义的能力: 如果一个语法可以把一个以上的剖析指派给同一个句子,那么,就说这个句子具有结 构歧义(structure ambiguity)。例如,英语句子“They made a decision on the boat”中的介词 短语 on the boat,既可以修饰名词 decision,也可以修饰动词 made,从而形成结构歧义。 对于这样的具有结构歧义的句子,机器翻译系统应该根据有关语言学知识给出一个正 确的翻译结果,以显示系统处理歧义结构的能力。 例如,英语句子 He bought a car with 4 doors. 介词短语 with 4 doors 是修饰名词词组 a car 的,因此机器翻译系统只可出一个结果。 结构歧义是机器翻译研究的一个难点,为了推动机器翻译的进一步发展,有必要适当 地测试系统处理结构歧义的能力。 g. 测试题目的句子,应该选取现代书面语中的规范句子,句子中的单词和语法应该严 格遵循所测试语言的规范标准。 4 7 机器翻译的评测标准 机器翻译的评测可以分为人工评测和自动评测两种,在目前的技术下,以人工评测为主。 7.1 人工评测的标准 人工评测时,可以分别就忠实度和可懂度制定评测标准,也可以不区分忠实度和可懂度, 综合地采用可理解度进行评测。评测时应当注意系统应遵循有关语言文字标准。 7.1.1 分别就忠实度和可懂度进行评测的标准 a. 忠实度(fidelity):评测译文是否忠实地表达了原文的内容。按 0–5 分打分,打分可 含一位小数。最后的得分是所有打分的算术平均值。 分数 得分标准 0 完全没有译出来 1 译文中只有个别单词与原文相符 2 译文中有少数内容与原文相符 3 译文基本表达了原文的信息 4 译文表达了原文的绝大部分信息 5 译文准确完整地表达了原文信息 表1:人工评测的忠实度打分标准 b. 可懂度(comprehensibility):评测译文是否流畅和地道。按0–5分打分,打分可含一 位小数。最后的得分是所有打分的算术平均值。 分数 得分标准 0 完全不可理解 1 译文晦涩难懂 2 译文很不流畅 3 译文基本流畅 4 译文流畅但不够地道 5 译文流畅而且地道 表2:人工评测的流利度打分标准 7.1.2 综合地采用可理解度(intelligibility)进行评测 分数 得分标准 译文可理解度 0 完全没有译出来。 0% 1 看了译文不知所云或者意思完全不对。只有小部分词语翻译正确。 20% 2 译文有一部分与原文的部分意思相符;或者全句没有翻译对,但是关 键的词都孤立地翻译出来了,对人工编辑有点用处。 40% 3 译文大致表达了原文的意思,只与原文有局部的出入,一般情况下需 要参照原文才能改正译文的错误。有时即使无需参照原文也能猜到译 文的意思,但译文的不妥明显是由于翻译程序的缺陷造成的。 60% 4 译文传达了原文的信息,不用参照原文,就能明白译文的意思;但是 部分译文在词形变化、词序、多义词选择、得体性等方面存在问题, 80% 5 需要进行修改。不过这种修改无需参照原文也能有把握地进行,修改 起来比较容易。 5 译文准确流畅地传达了原文的信息,语法结构正确,除个别错别字、 小品词、单复数、地道性等小问题外,不存在很大的问题,这些问题 只需进行很小的修改;或者译文完全正确,无需修改。 100% 表3:人工评测可理解度打分 评测时按0.0 – 5.0分打分,可含一位小数,最后采用百分制换算评测结果。 总的可理解度 = 所有句子得分之和/总句数×100% 7.1.3 对于机器翻译系统中的外译汉系统,汉语译文除了忠实度、可懂度、可理解度之外, 还应符合国家有关语言文字规范,包括字形、异形词、标点符号、术语、人名等的规范。具 体要求如下: a. 字形:经过外译汉机器翻译系统输出的汉语译文在字形方面应符合《第一批异体字整 理表》《简化字总表》《部分计量单位名称统一用字表》规定的字形。 b. 异形词:汉语译文对异形词的处理应注意词形规范。 c. 标点符号:汉语译文中的标点符号应注意使用规范,应符合《GB/T15834-1995 标点 符号用法》的规定。 d. 术语:外译汉机器翻译系统应注意术语的翻译问题,各学科术语的翻译应使用全国科 学技术名词审定委员会已公布的术语。例如,计算机术语“backup”有“备制/后备/备用/ 备份”几种译法,应选用“备份”;“menu”有“菜单/选单”两种译法,应选用“选单”。又 如,物理学术语“charm quark”有“魅夸克/粲夸克”两种译法,应选用“粲夸克”;“diffraction” 有“绕射/衍射”两种译法,应选用“衍射”。 e. 人名:外国人名的翻译应遵循“名从主人”“约定俗成”的原则。例如,法国数学家 Galois 是法国人,其中文译名应遵照“名从主人”的原则,按法语读音规则译为“伽罗华”, 而不能按英语读音规则译为“伽罗依斯”。对于早已熟知的外国人名,由于他们的中文译名 已经相沿成俗,可以按照“约定俗成”的原则,继续沿用旧译名,不宜改动。例如,笛卡 儿(R. Descartes)、伽利略(G. Galilei)、牛顿(I. Newton)。英美人名应当以新华社编写的 《英语姓名译名手册》或全国科学技术名词审定委员会已公布的译名为准。例如,诺贝尔 文学奖获得者 William Faulkner 有“威廉·福克纳”和“威廉姆·弗格纳”等不同的译法, 应根据《英语姓名译名手册》译为“威廉·福克纳”。 除此之外,机器翻译系统还应注意不同风格、不同语体文章的翻译问题。例如,小说对 话的译文应使用口语词汇,而正式文体的译文则应使用书面语词汇。 对于汉译外机器翻译系统,汉语原文应遵循我国已经发布的有关语言文字标准,使用《第 一批异体字整理表》《简化字总表》中的规范字形。 7.2 自动评测的方法 a. BLEU 评测方法:这是一种基于 N元语法(N-gram)的自动评测方法,它通过对译文 跟参考译文进行 N-gram 的比较综合而得出译文的好坏的评价分数。这种基于 N 元语法共现 的统计方法中,一元词的共现代表了翻译的忠实度,它表征了原文里面有多少单词被翻译了 过来;而二元以上的共现词汇代表了目标语言的可懂度,阶数高的 N元词的匹配度越高,系 统译文的可懂度就越好。 其基本计算公式为 )logexp( 1 ∑ = ⋅= N n nn pwBPScore 6 )}1exp(,1min{ Lsys LrefBP −= 其中,Pn = 被测译文中与参考答案匹配的 N-gram 总数/被测译文中 N-gram 总数; BP = 长度惩罚因子;Lref = 与被测句子长度最接近的答案长度; Lsys = 被评测句 子的长度; N = 最大 N-gram 长度; Wn = N-gram 的权重;exp x 表示 ex,即以自然对 数 e 为底的指数函数。 BLEU 是根据 N-gram 准确率的几何平均值来计算的,得分越高越好。 b. NIST 评测方法:NIST 在 BLEU 标准基础上提出的一个改进,称为 NIST 评测标准。 NIST 方法采用各阶 N-gram 的算术平均值而不是几何平均值,使得总体评价结果更偏重于忠 实度,而且也不至于因为某一阶 N-gram 的匹配率为零而导致总体评价为零。另外,NIST 考 虑到每一个 N-gram 在多个参考译文中出现的次数不同能够表现出该词的重要性,因此根据 其在多个参考译文中出现的次数而给每一个 N-gram 赋予一个权值。实验证明,NIST 在敏感 性(对被测系统的区分程度)方面高于 BLEU。 下面是 NIST 的基本公式: ( ) ⎪⎭ ⎪⎬ ⎫ ⎪⎩ ⎪⎨ ⎧ ⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛• ⎪⎭ ⎪⎬ ⎫ ⎪⎩ ⎪⎨ ⎧ …=∑ ∑ ∑ = … … 1,minlogexp )1( 2 1 occur-cothat w wall output sysin wall 1 1 1 ref sys N n w n L L wwInfoscorce n n β ( ) wof soccurrence of # the wof soccurrence of # thelog 1 11 21 ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ … …=… − n n n w wwwInfo β是一个常数,是一个经验阈值,使得在 Lsys/Lref=2/3 时,β使得长度罚分率为 0.5; refL 是参考答案的平均长度;其余参数意义与 BLEU 相同。 NIST 是根据根据 N-gram 准确率的算术平均值来计算的,得分越高越好。 BLEU 和 NIST 的自动评测结果有助于减少人工评测的主观性,对于人工评测有一定参考 价值。在机器翻译评测中,建议以人工评测为主,以 BLEU 和 NIST 的评测结果作为参考。 c. 基于最小编辑距离的自动评测方法 最小编辑距离是把一个符号串通过插入、删除和替换三种操作转换成另一个符号串的最 小代价。采用数据库存储机器翻译的原文和不同质量级别的多个参考译文,评测时首先把机 器翻译的译文对应到与它的编辑距离最小的参考译文,然后再自动估算出译文质量的等级。 7.3 机器翻译译文质量的其他评测方式: 还可以采用其他的方式来评测机器翻译的译文质量: a. 根据译后编辑对译文的修改量来进行评测; b. 把机器翻译的译文同人翻译的译文相比较来进行评测; c. 把标准换算成费用,根据最终费用的多少来进行评测。 8 机器翻译评测的其他内容 除了对机器翻译的译文质量进行评测之外, 还可以采用如下指标来评测机器翻译系统: a. 根据机器翻译所需要的时间来进行评测: 由主持评测的工作人员现场记录翻译时 7 间,各系统自动显示从第一个句子翻译开始到所有句子翻译完毕所用的时间(不计系统初始 化所用时间,只记开始翻译到所有句子翻译完毕所用时间)。 b. 根据使用环境的要求来进行评测:对于计算机硬件的要求,对于其他软件的依赖性, 对于输入文本的要求,对于用户界面的质量进行评测。 c. 根据可维护性进行评测:评测机器翻译系统能否解决实际应用中出现的问题,能否 保证系统的正常运行。 d. 根据可扩充性进行评测:评测机器翻译系统是否便于扩充系统的词汇和语法结构的 覆盖面。 e. 根据系统的性能价格比进行评测:评测机器翻译系统的翻译速度和译后编辑所需要 的时间,以求得最好的性能价格比。 f. 根据系统的鲁棒性进行评测:评测机器翻译系统对于错误输入原文的处理能力以及 系统的容错性。 g. 根据模块性进行评测:评测机器翻译系统模块各个部分的接口是否清晰,数据与算 法是否分开。 h. 根据单调性进行评测:评测当机器翻译系统升级之后,原来的性能是否会退步,若 干独立的升级是否能够彼此结合,避免冲突。
/
本文档为【机器翻译系统评测规范2006年版本】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索