为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 欧、美机器翻译的现状与前景

欧、美机器翻译的现状与前景

2012-12-31 7页 pdf 382KB 30阅读

用户头像

is_491091

暂无简介

举报
欧、美机器翻译的现状与前景 2oo8年6月 专利文献研究 2008年第3期 本需求,值得我们进一步地借鉴和学习。 参考文献 1.httD://www.iDd1.inoit.izo.iD/homeD~ e.iDdl 2.Shoichi Yokoyama, Yuva Kaneda: Classification of modified relationships in Japanese patent sentences 疆 Summit x— Phuket, Thailand, September 16, 2005 Proc...
欧、美机器翻译的现状与前景
2oo8年6月 专利文献研究 2008年第3期 本需求,值得我们进一步地借鉴和学习。 参考文献 1.httD://www.iDd1.inoit.izo.iD/homeD~ e.iDdl 2.Shoichi Yokoyama, Yuva Kaneda: Classification of modified relationships in Japanese patent sentences 疆 Summit x— Phuket, Thailand, September 16, 2005 Proceedings of Workshop on Patent Translation;pp.16—2O. 3.Tsuyoshi Kakita:“Japan:machine assisted translation of Patent Abstracts of Japan(PAJ)”, http://www.epo.org/about-us/events/emw2008 . /programme.htm 4.Yokoyama Shoichi,Kennendai Shigehiro: Error correcting system for analysis of Jaoanese Datent sentences. l=T SummitⅪ Workshop onpatenttranslation,11 September 2007,Copenhagen,Denmark;PP.24—27. (中国专利信息中心 王丹 审校) 欧 、 美 机 器 翻 译 的 现 状 与 前 景 中国专利信息中心 王 凯 编译 摘 要:使用计算机进行翻译的目的,不是为了超越或者挑战人工翻译,而是为了生成粗略 的译文。这些译文可以作为出版发行的译文的草稿,作为获取外文资料的手段以及取得跨语 言沟通的帮助。机器翻译 (MT)领域涵盖计算机辅助与系统的运用、研究与开发,其覆盖 范围从服务于大公司的产品系统到个人的国际互联网帮助。 关键词:机器翻译,欧、美机器翻译状况,欧洲专利局机器翻译系统 一 、 机器翻译最近的发展 机器翻译从上个世纪五、六十年代出现 以来,其传统应用,例如是对跨国公司的科 技文献进行翻译。翻译系统生成内容可以更 改的 “原始”版本,然后被翻译人员或者谙 熟源语言的学科领域的专家进行修订 (后期 编辑)。后期编辑的代价是高昂的,许多使 用机器翻译的公司采纳了一个节省成本的 替代方式,即进行输入文本的预编辑 (典型 地采用一种受控的 “规范化的”语言),以 便达到使机器翻译输出错误最小化,同时简 化 (或者消除)编辑过程的目的。当前,这 种应用的重要发展迅速扩张 (每年翻译的页 面数以百万计),是翻译与技术著作,印刷 刊物与公开发行刊物的整合。 尽管用于个人计算机的机器翻译软件 在上个世纪 8O年代的早期就开始出现,但 是一直到九十年代中期,其销售水平相对低 迷。(归根结底)机器翻译的质量用于正式 的翻译不够专业,不过对于单独的“临时性” 的用户,它的作用是足够的,比如用来识别 外来语言文本的大体内容,或者用其它语言 进行交流。 专职译员、翻译代理机构以及小的公司 偏爱基于计算机的翻译工具,尤其是翻译工 作站,其最具特色的 “翻译记忆”系统部分 经常被参照一而这些系统最初是由欧洲公 司开发的。当前最为广泛应用的系统有: SDL、Transit、D 6j a Vu、MultiTrans、 LogiTerm、Wordfast以及 ProMemoria系统。 每个系统提供类似的设备与功能:多语言分 屏字处理;术语识别、检索与管理;生成与 国家知识产权局专利局文献部 维普资讯 http://www.cqvip.com 2008年第3期 专利文献研究 2008年6月 使用翻译记忆 (以前译文与源文件的双语文 本集合);以及用于所有欧洲和诸多亚洲语 言的支持,既作为资源,又作为目标语言。 最后,需要提及的是:工作站可以根据需要 提供使用全自动翻译的权限。 互联网的出现推动了实时在线翻译的 快速发展。这种需要是快速获取外来语言的 信息;对于总体翻译质量不是本质要求的。 许多以个人电脑为基础的系统是面对网页 翻译以及电子邮件而销售的,机器翻译的应 用需求巨大而且正在逐步增加 (许多是免费 的),比如,在 AltaVista系统上大家所熟知 的Babelfish系统——现从yahoo(雅虎)上 也可使用。其它的包括 FreeTranslation、 Google Translator、Tarjim、WorldLingo系统, 而且更多的被添加到特殊语言组以及 “主 流”语言 (英语、法语、德语、西班牙语、 阿拉伯语、曰语、朝鲜语、汉语)。 二、欧洲与北美机器翻译的状况 以个人电脑为基础的机器翻译软件可 以从大量的欧洲与北美的卖主那里得到,同 时几乎覆盖所有欧洲语言组对。这里,我们 只 介绍最 著 名 的 (整 体列表 可 以参 见 http://www.hutchinsweb.me.uk/Compendium. htm)。几乎所有的软件覆盖欧洲的主要语言 (英语、法语、德语、意大利语、西班牙语), 其中很多系统也可以翻译不太普及的语言 (希腊语、波兰语、俄语、匈牙利语、土耳 其语等等),同时,将欧洲语言与阿拉伯语、 汉语、曰语、朝鲜语等进行互译。此外,有 许多系统被专门设计用于特殊的语言对:英 一 德翻译软件 (个人翻译 PT)、英语一意大利 语翻译软件 (PeTra)、英语一芬兰语翻译软件 (TranSmart),阿拉伯语一英语翻译软件 (A1一Mutarjim A1一Arabey、 A1一Nakil、 A1.w撕);法语一德语翻译软件 (FB—Active)、 德语一俄语翻译软件 (PROMT)、俄语一乌克 兰语翻译软件(PARS)、葡萄牙语一西班牙以 及其它语言翻译软件 (Falatudo)、加泰罗尼 亚语一西班牙语翻译软件(interNOSTRUM), 等等。 上面提到的大多数系统适用于不同的 版本,比如服务于大企业的 “corporate”或 者 “enterprise”;服务于个体专职译员的 “professional”;以及服务于临时性的用户, 例如翻译 网页与电子邮件的 “home”或 “ personal”o 除商业系统以外,不断涌现出服务于企 业一互联网应用或企业客户的专业系统,在 美国,泛美卫生组织在上个世纪 80年代的 早期,开发了英语与西班牙语的在线系统, 随 后 是 英 语 一葡 萄 牙 语 ; 斯 马特 公 司 (SMART)继续为使用欧洲语言的大公司 职员开发定制系统;定制系统的欧洲提供商 包括 ESTeam 以及 Xplanation n.V,后者专注 于控制语言系统。 许多大型翻译服务项 目,以及跨国公司 使用的机器翻译系统对批量的文本来进行 翻译,比如美国政府机构 (DARPA (国防 部高级研究计划局)、USAF(美国空军)等) 以及大型公司 (Xerox(施乐公司)、Ford(福 特公司)、General Motors(通用公司)等) 欧洲的大型用户,比如 SAP公司与 Siemens (西门子)公司,尤其是欧洲联盟委员会。 欧洲地域最显著的特征之一是:翻译公 司提供实现本地化的文献与产品一一这些 公司已经在翻译辅助以及机器翻译系统的 使用上取得了重要的经验。与这些举措相关 的是用于网站局域化的软件的开发。随着互 联网的增长,许多企业提供其产品与服务的 信息,这些信息非常需要被翻译成其它语 言。这些信息还必须定期升级。需要的时候, 比如 IBM Websphere软件已经被专门开发 用于翻译网页。 新闻网页的 自动翻译在欧洲与北美正 在增长。大多数公司介入使用像 Systran那 样的由主要供应商提供的机器翻译软件定 制版本。 与欧洲形势形成对比,在 日本以及其它 国家知识产权局专利局文献部 27 维普资讯 http://www.cqvip.com 2008年6月 专利文献研究 2008年第3期 亚洲国家,专利机器翻译的应用一直被相对 忽视。针对专利翻译的专门系统仅有两个: PaTrans系统,被开发用于 LingTech的A/S 系统 (用来将英文专利翻译成丹麦语);以 及 APTrans系统 (设计用来从受控的英语语 言来生成多语言的专利权利要求)。 三、欧洲专利局机器翻译系统以及近期 规划 欧洲专利局从 2007年伊始,着手实施 机器翻译进一步的研究。其指导思想 是:使每个专利的技术内容能够被专业技术 人员充分把握;其次,扩大欧洲专利局成员 国的视野,加大对欧洲技术应用的范围;最 后,确保技术辞典和术语创建的进一步的筹 备工作。 图 1 欧洲专利局机器翻译概念图 图2 机器翻译系统 国家知识产权局专利局文献部 维普资讯 http://www.cqvip.com 2008年第 3期 专利文献研究 2008年 6月 辞典的建设是一个比较重要的环节,包 括以下措施: ● 文献对的搜集。 ● 字段对齐。 ● 技术术语的提取。 ● 编码,术语的校订与修正。 在一个主体数据库中,还要利用创建与 升级工具,对所有的辞典进行整合。 同时,以XML为基础,采用开放词汇 交换格式。一个开放 的格式建立在 德语 法语 OLIF协会的基础上。OLIF协会包括: ● 欧洲委员会 ● Systran ● Trados ● SAP ● IBM ● Microsofl ● PATRANS 以上这些企业与组织。词汇的交互转换 以英语作为核心,如图3。 土耳其语 图3 英语作为核心语言 欧洲专利局机器翻译系统提供的服务 如图4。通过课题研究得到的结果数据的所 有权是一个让人关心的问题,比如构建的辞 被兰语 典 (包括:提取的术语组、文献语对的搜集、 每个领域的词汇数据)对于不同的对象,具 有相应的收费政策,如下: 国家知识产权局专利局文献部 29 维普资讯 http://www.cqvip.com 2008年6月 专利文献研究 2008年第3期 ● 对于 EPO成员国属于免费; ● 在合作项目下的互惠原理; ● 第三方的边缘花费 当前欧洲专利局工作的内容,也就是第 一 阶段工作的重点是针对最初的语言组对, 具体措施如下: ● 创建技术术语的文献和 自动提取的集 合,以建立辞典;辞典的修订与校正; ● 选择与执行翻译引擎以及附属系统; ● 在适当的位置,机器翻译用于英语到法 语、德语与西班牙语之间的互译; 后续工作的内容是: 辞典管理系统 囊 ii 鬻一 一 ; 安 安 安 外部用户 互 i i霭 i薯 _ 蒌 ; 舞鎏 J蠹 _ 0_Il 。羹 i 0 零 Il0 ≯ 。 _ ≥ 簟 擞 静 露辫 搿 嚣瀚豫 鬟 j i嚣誊嚣麓糍蠹c麟 嚣 l赫 蠹嚣搿 图4 欧洲专利局机器翻译系统的服务模式 ● 选择与实施新的翻译引擎; ● 创建文献的集合以建立最初的辞典; ● 辞典的校订与修订; ● 机器翻译系统就地用于新的、其它的语 言组对; ● 现有语言组对的维护。 四、机器翻译研究 直到上个世纪九十年代,大多数机器翻 译的研究仍旧建立在词汇工具以及语法规 则 (通过中间语言或者至少 “深层结构”表 述法翻译)的基础上,也就是我们现在称作 的 “基于语法规则的机器翻译(RBMT)”。目 前,机器翻译研究占优势地位的是基于语料 库的系统。在统计机器翻译 (SMT)系统中, 来自双重语料 (原始文本与译文)的词汇与 “短语”(两到三个单词序列)被对齐作为 一 个词对词 (短语对短语)频率“翻译模式” 的基础。翻译涉及对于每个输入词汇在目标 语言的中最可能的词汇的选择,以及被选择 单词 (在一个单一语言 “语言模式”的基础 国家知识产权局专利局文献部 维普资讯 http://www.cqvip.com 2008年第3期 专利文献研究 2008年 6月 上)的最可能序列的定义。基于实例的机器 翻译 (EBMT)涉及双语数据的相似对齐, 但是这里翻译单元大于个别词汇或者短语 序列;输入句子针对语料中的短语或分句 (实例);然后目标语言中等价的短语被提 取,并且在适合的输出句子中被接纳与组 合。两种方法形成大量双语语料的实际应 用,但是,其中 SMT是完全以统计相关性 为基础,而 EBMT既采用统计技术,也采 用早期 RBMT途径中的语言学为基础的方 法。 这种基于语料的研究的重要的 “副产 品”已经被开发用作翻译人员的助手,不仅 是对翻译记忆的提高,也是对错误检测与校 正系统的提高,还有自动文本预测,也就是 用于完成文本的建议,以帮助重复翻译雷同 科技文献的翻译人员。 虽然大多数的机器翻译研究者目光仍 旧停留在自控翻译系统 (其中人工干涉被最 小化),也有许多研究是基于对话的以及基 于计算机干涉的系统,包括可控或“规范化” 的输入——目的在于确保高质量输出。 目前最前卫的研究领域是口语英语的 自动翻译。主要的研究中心在 日本的高级电 信研究所以及美国的卡内基一梅隆大学、德 国的卡尔斯鲁厄大学。上述几家在一个项目 (c—STAR财团)中合作,为日本、英国与 德国开发实时电话翻译系统一一最初用于 旅馆预定以及会议登记事务。直到最近,在 德国,也有政府支助的 Verbmobil项目,用 来为商业谈判 (德、曰、英语)开发出一种 便携式的援助系统 。语音翻译吸会引更多 的公众,但是在不久的将来,专家预测不会 出现戏剧性的发展。不过,在高度局限的领 域里,我们可以展望语音的机器翻译 (比如 电话查询、银行交易、计算机输入),自动 语音翻译在这些领域里,似乎看起来不会普 及到不限成员名额的人际沟通当中。 欧盟成员国中的中欧、东欧国家,已经 激励进行机器翻译与语言翻译工具的研究, 比如捷克、波兰、匈牙利、斯洛文尼亚、爱 沙尼亚以及保加利亚。对于欧洲的 “少数民 族语言”,比如巴斯克语、加泰罗尼亚语、 北印度语、孟加拉语以及英联邦的古吉拉特 语,其系统的研究也不容忽视。 五、机器翻译与人工翻译 对于大规模的或者需要速译的 (让人头 疼)的科技文献、(高度重复)的软件本地 化手册,以及许多其它的情形:机器翻译加 上人工预备与修订的成本,或者使用计算机 化的翻译工具 (工作站等)的成本明显少于 传统的没有计算机辅助的人工翻译的成本 的情况下,机器翻译无庸质疑是节省成本 的。 相反,对于非重复性的、语言学复杂的 文本 (比如文学与法律),甚至对于特殊的 高度专业化的技术科目的一次性文本,人工 翻译是 (而且将来也会)无可竞争的。实际 上,通过互联网服务得到的质量不是很高的 预备性的机器翻译会产生一种需求:即将来 有可能那些以前没有接触过翻译工具的翻 译人员可以进一步给出高质量的人工翻译。 尽管这样,对于那些对输出翻译质量不是很 看重的文本,机器翻译通常是一种理想或者 说是唯一的方案。例如,通过机器翻译,对 科技的文献生成译文的举措或许对于那些 想仅仅找出常规背景信息,以及/或特定数 据的人来说,会是一个唯一的选择。并且在 人工翻译没有涉猎的领域有新的应用:为使 用一门外语进行写作的作者生成一个草稿 版本;电视字幕的实时翻译;数据库信息的 翻译;网页的在线翻译;电子邮件的翻译等 等。 六、机器翻译的将来 互联网会促进机器翻译性质的改观与 应用。互联网服务的用户搜寻的是信息,信 息是以何种语言被写或存储一翻译对于那 个结果只是一个手段而已。用户想通过自动 国家知识产权局专利局文献部 31 维普资讯 http://www.cqvip.com 2008年6月 专利文献研究 2008年第3期 翻译,得到信息检索、提取以及摘要系统的 完整集合。现在,在这些领域,比如交叉语 言信息检索、多语言摘要、从数据库生成多 语言文本等,正在进行着日益活跃的研究。 不用很长时间,在互联网上就会出现商业化 的系统。 当多用途机器翻译系统持续发展并且 市场化时,有可能在未来的几年里,出现许 多以计算机为基础的工具和应用,其中自动 翻译仅是一个组分。组合翻译软件将不仅应 用到大型的企业,也会应用到所有个人电脑 (办公电脑、本、或者以网络为基础的 终端⋯)以及任何进入计算机网络服务的装 置 (电视、移动电视、PDA等等)。 现有的系统已开发被开发用于翻译精 心撰写的科技术文献,并承担人工后期编辑 的任务。互联网使用要求系统专门服务于电 子邮件以及聊天室内的口语 (通常是病句和 错误拼写)信息。过去的语言学规则为基础 的 (RBMT)途径或许不能完成任务,我们 希望语料库为基础的方法对于从互联网自 身获取的庞大的数据发挥作用,作为未来机 器翻译系统的应用基础。 语料库为基础的方法促进了机器翻译 系统的更加迅速的发展,同时克服了人为形 成规则为基础的途径的必然缺陷。现在,虽 然 SMT的研究在 MT中处于主导地位,商 业系统的主体还是 RBMT系统。SMT系统 还没有达到大众化使用的地位。其领导者是 Language Weaver公司提供的阿拉伯语、汉 语、法语、德语、波斯语、罗马语、西班牙 语等与英语进行的交互式翻译系统。最近, 在线 “Google(谷歌)翻译”服务已经开始 为阿拉伯语、汉语、日语以及朝鲜语对英语 提供 自己研发的 SMT系统 (使用谷歌的大 规模文本数据库)。 参考文献 1.《机器翻译在欧美的现状、前景的概况》, 约翰.赫钦斯 (W John Hutchins) 2.《科学与商业信息国际会议》,欧洲专利局, 2006年 l0月22—25日 约翰.赫钦斯 (W John Hutchins)是关于语 言学、信息检索、特别是机器翻译文章与著 作的作家一一许多信息可以从他的网站地 址获取 (http://www.hutchinsweb.me.uk)。他 致力于欧洲机器翻译协会 (1995—2004年任 主席)以及国际机器翻译协会 (1999.2001 年任主席)的工作。主要著作:《机器翻译 的过去、现在与将来》(奇切斯特:埃利斯. 霍华德,1986);《机器翻译入门》【与哈罗 德.萨姆斯1(伦敦:学术出版社,1922);《国 际 新 闻 采 用 机 器 翻 译 的 编 程 》 (1991—1997);《机器翻译软件纲要的编 程》(现在来自他的网站,从2000年至今) 以 及 《机 器 翻 译 档 案 的 编 程 》 (http://www.mt—archive.info)(从 2004年至 今);《早期机器翻译的编程:前辈的论文与 传记》(阿姆斯特丹:约翰.本杰明,2000)。 (信息化办公室 李超凡 审校) 国家知识产权局专利局文献部 维普资讯 http://www.cqvip.com
/
本文档为【欧、美机器翻译的现状与前景】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索