为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 机器翻译与语言研究_上_

机器翻译与语言研究_上_

2014-01-12 5页 pdf 189KB 79阅读

用户头像

is_692844

暂无简介

举报
机器翻译与语言研究_上_ 《术语标准化与信息技术》2007年第3期 (上) 机器翻译(machinetranslation)是使用电子计 算机把一种语言(源语言,sourcelanguage)翻译成 另外一种语言(目标语言,targetlanguage)的一门 新学科。这门新学科也同时是一种新技术。它涉及 语言学、计算机科学、数学等许多部门,是非常典 型的多边缘的交叉学科。在语言学中,机器翻译是 计算语言学的一个研究领域;在计算机科学中,机 器翻译是人工智能的一个研究领域;在数学中,机 器翻译是数理逻辑和形式化方法的一个研究领 ...
机器翻译与语言研究_上_
《术语化与信息技术》2007年第3期 (上) 机器翻译(machinetranslation)是使用电子计 算机把一种语言(源语言,sourcelanguage)翻译成 另外一种语言(目标语言,targetlanguage)的一门 新学科。这门新学科也同时是一种新技术。它涉及 语言学、计算机科学、数学等许多部门,是非常典 型的多边缘的交叉学科。在语言学中,机器翻译是 计算语言学的一个研究领域;在计算机科学中,机 器翻译是人工智能的一个研究领域;在数学中,机 器翻译是数理逻辑和形式化方法的一个研究领 域。机器翻译要把这些不同的学科结合起来,综合 地进行研究。机器翻译要求不同学科的专家通力 合作,取长补短,相得益彰。让计算机理解人类的 语言,一直是自然语言处理(NaturalLanguage Processing,NLP)追求的目标,也同时是应用语言 学(AppliedLinguistics)研究的重要方面。但是,这 是一个非常困难而又令人神往的研究课题。 关于通天塔的传说 圣经《创世纪》中说,古代人类说的原是一种 统一的语言,交流思想非常方便,劳动效率也很 高,他们曾经想建立一座高达天庭的通天塔,叫做 “巴比塔”,来显示他们的丰功伟绩。建造巴比塔的 壮举震惊了上帝,上帝便施伎俩,让不同的人说不 同的语言,使人们难于交流思想,无法协调工作, 以此来惩罚异想天开的巴比塔建造者。结果,巴比 塔没有建成,而语言的不同,却成为人们相互交往 的极大障碍。 这样的传说当然是不可信的,但是,语言的障 碍却时时刻刻在困扰着人们。翻译成为了语言应 用的最重要的方面,翻译服务成为了一个相当发 达的产业部门。 现在我们已经进入了信息化的时代,语言是 信息的最主要的负荷者,如何有效地使用现代化 手段来突破人们之间的语言障碍,成为了全人类 面临的共同课题。机器翻译采用电子计算机来进 行不同语言之间的自动翻译,是解决这个问题的 有力手段之一。机器翻译有可能成为消除人们语 言障碍的真正的神奇通途。人类通过机器翻译的 手段来重新建造一座现代化的巴比塔。由于自然 语言是极端复杂的,机器翻译极为复杂和困难,它 是当代科学技术的十大难题之一,也是我们应用 语言学工作者的学术梦想。 最早“吃螃蟹者”的尝试 1946年,美国宾夕法尼亚大学的埃克特(J.P. Eckert)和莫希莱(J.W.Mauchly)设计并制造出了 世界上第一台电子计算机ENIAC。电子计算机惊 人的运算速度,启引着人们考虑翻译技术的革新 关键词:机器翻译;ALPAC报告;机器翻译金字塔 摘 要:本文介绍了机器翻译发展的曲折过程,特别是介绍了世界上第一次机器翻译试验的许 多鲜为人知的历史资料,说明了机器翻译对于语言学研究提出的各种新问题。 MachineTranslationandLinguisticResearch(partI) FENGZhiwei Keywords:machinetranslation(MT);ALPACreport;pyramidofmachinetranslation Abstract:TheAuthordescribesthezigzagprocedureofdevelopmentofmachinetranslation (MT),heshowssomevaluablehistoricalmaterialsoffirstexperimentofmachinetranslationinthe world.Thenewproblemsforlinguisticresearchwhichrelatedwithmachinetranslationarealso introduced. ◇冯志伟(教育部语言文字应用研究所) ·语言信息处理· 机 器 翻 译 语 言 研 究与 39· · 《术语标准化与信息技术》2007年第3期 问题。因此,在电子计算机问世的同一年,英国工 程师布斯(A.D.Booth)和美国洛克菲勒基金会副 总裁韦弗(W.Weaver)在讨论电子计算机的应用 范围时,就提出了利用计算机进行语言自动翻译 的想法。1947年 3月 6日,布斯与韦弗在纽约的 洛克菲勒中心会面,韦弗提出,“如果将计算机用 在非数值计算方面,是比较有希望的”。在韦弗与 布斯会面之前,韦弗在1947年3月4日给控制论 学者维纳(N.Wiener)写信,讨论了机器翻译的问 题。韦弗说:“我怀疑是否真的建造不出一部能够 作翻译的计算机?即使只能翻译科学性的文章(在 语义上问题较少),或是翻译出来的结果不怎么优 雅(但能够理解),对我而言都值得一试。”可是,维 纳给韦弗泼了一瓢冷水,他在4月30日给韦弗的 回信中写道:“老实说,恐怕每一种语言的词汇,范 围都相当模糊;而其中表示的感情和言外之意,要 以类似机器翻译的方法来处理,恐怕不是很乐观 的。”不过韦弗仍然坚持自己的意见。1949年,韦弗 发表了一份以《翻译》为题的备忘录,正式提出了 机器翻译问题。在这份备忘录中,他除了提出各种 语言都有许多共同的特征这一论点之外,还有两 点值得我们注意: 第一,他认为翻译类似于解读密码的过程。他 说:“当我阅读一篇用俄语写的文章的时候,我可 以说,这篇文章实际上是用英语写的,只不过它是 用另外一种奇怪的符号编了码而已,当我在阅读 时,我是在进行解码。”他的这段话非常重要,广为 流传,其英文原文是这样的: “Ihaveatextinfrontofmewhichiswrit- teninRussianbutIamgoingtopretendthatit isreallywritteninEnglishandthatithasbeen codedinsomestrangesymbols.AllIneedtodo isstripoffthecodeinordertoretrievethein- formationcontainedinthetext.” 这段话中,韦弗首先提出了用解读密码的方 法进行机器翻译的想法,这种想法成为后来噪声 信道理论的滥觞。备忘录中还记载了一个有趣的 故事,布朗大学数学系的吉尔曼(R.E.Gilmam)曾 经解读了一篇长约一百个词的土耳其文密码,而 他既不懂土耳其文,也不知道这篇密码是用土耳 其文写的。韦弗认为,吉尔曼的成功足以证明解读 密码的技巧和能力不受语言的影响,因而可以用 解读密码的办法来进行机器翻译。 第二,他认为原文与译文“说的是同样的事 情”,因此,当把语言 A翻译为语言 B时,就意味 着,从语言 A出发,先经过某一“通用语言”(Uni- versalLanguage)或“中间语言”(Interlingua),然后 再转换为语言B,这种“通用语言”或“中间语言”, 可以假定是全人类共同的。 可以看出,韦弗把机器翻译仅仅看成一种机 械的解读密码的过程,他远远没有看到机器翻译 在词法分析、句法分析以及语义分析等方面的复 杂性。 早期机器翻译系统的研制受到韦弗的上述思 想的很大影响,许多机器翻译研究者都把机器翻 译的过程与解读密码的过程相类比,试图通过查 询词典的方法来实现词对词的机器翻译,因而译 文的可读性很差,难于付诸实用。 由于学者的热心倡导,实业界的大力支持,美 国的机器翻译研究一时兴盛起来。1954年,美国 乔治敦大学在国际商用机器公司(IBM公司)的协 同下,用 IBM-701计算机,进行了世界上第一次 机器翻译试验,把几个简单的俄语句子翻译成英 语,接着,苏联、英国、日本也进行了机器翻译试 验,机器翻译出现热潮。 在1954年1月7日向公众表演的时候,先把 俄语句子用英文字母进行转写,使用穿孔卡片输 入数据,这样,就可以便于不懂俄语的操作员进行 操作了。 第二天《纽约时报》(NewYorkTimes,1954 年1月8日)以“翻译者701(701translator)”为题 作了如下报道: Inthedemonstration,agirloperatortyped outonakeyboardthefollowingRussiantextin Englishcharacters:“Mipyeryedayem mislyipos- ryedstvom ryechi”(Мы передаем мысли посрествомречи).Themachineprintedatrans- lation almost simultaneously:“We transmit thoughtsbymeansofspeech”.Theoperatordid notknowRussian.Againshetypesoutthemean- ingless(toher)Russianwords:“Vyelyichyinaugla opryedyelyayatsyaotnoshyenyiyem dlyinidugik ·语言信息处理· 40· · 《术语标准化与信息技术》2007年第3期 radyiusu.” (величина угла определяется отношением длины дугы крадиусу)Andthe machinetranslateditas:“Magnitudeofangleis determinedbytherelationoflengthofarcto radius.”(NewYorkTimes,January8,1954) 这段英文的汉语译文如下: 在演示时,一个女操作员在键盘上使用穿孔 卡片输入转写成英文字母的俄语句子“Mipy- eryedayemmislyiposryedstvomryechi”,尽管她对 于俄语一无所知,可是聪明的计算机很快就输出 了英语译文“Wetransmitthoughtsbymeansof speech.”接着,她又在键盘上使用穿孔卡片输入她 完全不懂的另一个俄语句子“Vyelyichyinauglao- pryedyelyayatsya otnoshyenyiyem dlyinidugik radyiusu.” (величина угла определяется отношениемдлиныдугыкрадиусу),计算机几 乎同时就输出了相应的英语译文“Magnitudeof angleisdeterminedbytherelationoflengthof arctoradius.” 第一次机器翻译取得了很大的成功。但是,很 快就受到了保守分子的攻击。 1962年8月号的《哈泼杂志》(Harper’sMag- azine)发表了古温豪芬(JohnA.Kouwenhoven)的 题为《翻译的困扰》(“Thetroublewithtransla- tion”)的文章,文章中编造了如下的故事: 有几个电子师设计了一部自动翻译机, 这部机器的词典包含1500个基础英语词汇和相 对应的俄语词汇。他们宣称这部机器可以马上进 行翻译,而且不会犯人工翻译的错误。第一次试验 时,观众要求翻译“Outofsight,outofmind”(眼 不见心不烦)这个句子,灯光一阵闪动之后,翻译 出来的俄语句子的意思竟然是“看不见的疯子” (Invisibleidiot)。他们觉得这样的谚语式的句子比 较难以翻译,于是又给机器翻译系统翻译另一个 出自圣经的句子“Thespiritiswilling,butthe fleshisweak”(心有余而力不足),机器翻译出来 的俄语句子的意思却是“酒保存得很好,但肉已经 腐烂”(Theliquorisholdingoutallright,butthe meathasspoiled)。 这样的故事显然是凭空捏造的。我们知道,当 时美国只研究过把俄语翻译成英语的机器翻译系 统,根本没有研究过把英语翻译为俄语的机器翻 译系统。这说明文章作者对于美国机器翻译的历 史一无所知。尽管这是无中生有编造出来的虚假 故事,但是,从中我们可以感觉到当时美国的许多 人对机器翻译强烈的不满情绪。 不平坦的发展道路 早在机器翻译刚刚问世之时,美国著名数理 逻辑学家Bar-Hillel在1959年就指出,全自动高 质量的机器翻译(FullyAutomatic,HighQuality, MT,简称FAHQMT)是不可能的。 Bar-Hillel说明,FAHQMT不仅在当时的技术 水平下是不可能的,而且,在理论原则上也是不可 能的。 他举出了如下简单的英语片段,说明要在上 下文中发现多义词pen的正确译文是非常困难的 事情: Johnwaslookingforhistoybox.Finallyhe foundit.Theboxwasinthepen.Johnwasvery happy. 他的理由如下: (i)pen在这里只能翻译为 play-pen(“游戏的 围栏”),而绝对不能翻译为书写工具“钢笔”。 (ii)要确定pen的这个正确的译文是翻译好 这段短文的关键所在。 (iii)而要确定这样的正确译文依赖于计算机 对于周围世界的一般知识。 (iv)但是我们没有办法把这样的知识加到计 算机中去。 在机器翻译的早期,Bar-Hillel就科学地预见 到了机器翻译将会遇到的困难,显示出了他的远 见卓识。 1964年,美国科学院成立语言自动处理谘询 委员会(AutomaticLanguageProcessingAdvisory Committee,简称ALPAC委员会),调查机器翻译的 研究情况,并于1966年11月公布了一个题为《语 言与机器》的报告,简称ALPAC报告,对机器翻译 采取否定的态度,报告宣称:“在目前给机器翻译 以大力支持还没有多少理由”;报告还指出,机器 翻译研究遇到了难以克服的“语义障碍”(semantic barrier)。 ·语言信息处理· 41· · 《术语标准化与信息技术》2007年第3期 在ALPAC报告的影响下,许多国家的机器翻 译研究进入低潮,许多已经建立起来的机器翻译 研究单位遇到了行政上和经费上的困难。在世界 范围内,机器翻译的热潮突然消失了,出现了空前 萧条的局面。 不过,尽管在萧条时期,法国、日本、加拿大等 国,仍然坚持着机器翻译研究,于是,在70年代初 期,机器翻译又出现了复苏的局面。 如果我们把从 1954年第一次机器翻译试验 到 ALPAC报告发表后出现的萧条看成是机器翻 译的草创期(1954~1970年),那么,从 70年代初 期开始,机器翻译便进入的它的复苏期(1970~ 1976年)。 在这个复苏期,研究者们普遍认识到,原语和 译语两种语言的差异,不仅只表现在词汇的不同 上,而且,还表现在句法结构的不同上;为了得到可 读性强的译文,必须在自动句法分析上多下功夫。 早在1957年,美国学者英格维(V.Yngve)在 《句法翻译的框架》(“Frameworkforsyntactic translation”)一文中就指出,一个好的机器翻译系 统,应该分别对原语和译语都作出恰如其分的描 写,这样的描写应该互不影响,相对独立。英格维 主张,机器翻译可以分为三个阶段来进行。 第一阶段:用代码化的结构来表示原语 文句的结构; 第二阶段:把原语的结构标志转换为译语的 结构标志; 第三阶段:构成译语的输出文句。 第一阶段只涉及原语,不受译语的影响,第三 阶段只涉及译语,不受原语的影响,只是在第二阶 段才设计到原语和译语二者。在第一阶段,除了作 原语的词法分析之外,还要进行原语的句法分析, 才能把原语文句的结构表示为代码化的结构标 志。在第二阶段,除了进行原语和译语的词汇转换 之外,还要进行原语和译语的结构转换,才能把原 语的结构标志变成译语的结构标志。在第三阶段, 除了作译语的词法生成之外,还要作译语的句法 生成,才能正确地输出译文的文句。 英格维的这些主张,在这个时期广为传播,并 被机器翻译系统的开发人员普遍接受,因此,这个 时期的机器翻译系统几乎都把句法分析放在第一 位,并且在句法分析方面取得了很大的成绩,促进 了句法的形式化研究。 这个时期机器翻译的另一个特点是语法 (grammar)与算法(algorithm)分开。早在1957年, 英格维就提出了把语法与“”(mechanism)分 开的思想。英格维所说的“机制”,实质上就是算 法。所谓语法与算法分开,就是要把语言分析和程 序设计分开,程序设计工作者提出规则描述的方 法,而语言学工作者使用这种方法来描述语言的 规则。语法和算法分开,是机器翻译技术的一大进 步,它非常有利于程序设计工作者与语言工作者 的分工合作,为面向计算机的语言研究指出了方 向。 这个复苏期的机器翻译系统的典型代表是法 国格勒诺布尔理科医科大学应用数学研究所 (IMAG)自动翻译中心(CETA)的机器翻译系统。 这个自动翻译中心的主任是著名法国数学家沃古 瓦(B.Vouquois)教授,他也是 COLING的创始人 和第一任主席。 B.Vauquois教授明确地提出,一个完整的机 器翻译过程可以分为如下六个步骤: (1)原语词法分析 (2)原语句法分析 (3)原语译语词汇转换 (4)原语译语结构转换 (5)译语句法生成 (6)译语词法生成 这六个步骤形成了“机器翻译金字塔”,见图 1。其中,第一、第二步只与原语有关,第五、第六步 只与译语有关,只有第三、第四步牵涉到原语和译 语二者。这就是机器翻译中的“独立分析-独立生 成-相关转换”的方法。他们用这种研制的俄法机 器翻译系统,已经接近实用水平。 ·语言信息处理· 42· · 《术语标准化与信息技术》2007年第3期 他们还根据语法与算法分开的思想,设计了 一套机器翻译软件 ARIANE-78,这个软件分为 ATEF,ROBRA,TRANSF和 SYGMOR四个部分。 语言工作者可以利用这个软件来描述自然语言的 各种规则。其中,ATEF是一个非确定性的有限状 态转换器,用于原语词法分析,它的程序接收原语 文句作为输入,并提供出该文句中每个词的形态 解释作为输出;ROBRA是一个树形图转换器,它 的程序接收词法分析的结果作为输入,借助语法 规则对此进行运算,输出能表示文句结构的树形 图;ROBRA还可以按同样的方式实现结构转换和 句法生成;TRANSF可借助与双语词典实现词汇 转换;SYGMOR是一个确定性的树-链转换器,它 接收译语句法生成的结果作为输入,并以字符链 的形式提供出译文。 通过大量的科学实验的实践,机器翻译的研究 者们认识到,机器翻译中必须保持原语和译语在语 义上的一致,也就是说,一个好的机器翻译系统应 该把原语的语义准确无误地在译语中表现出来。这 样,语义分析在机器翻译中越来越受到重视。 美国斯坦福大学威尔克斯(Y.A.Wilks)提出 了“优选语义学”(preferencesemantics)。 Y.A.Wilks在此基础上设计了英法机器翻译 系统,这个系统特别强调在原语和译语生成阶段, 都要把语义问题放在第一位,英语的输入文句首 先被转换成某种一般化的通用的语义表示,然后 再由这种语义表示生成法语译文输出。由于这个 系统的语义表示方法比较细致,能够解决仅用句 法分析方法难于解决的歧义、代词所指等困难问 题,译文质量较高。这些出色的工作,为语义的形 式化研究奠定了基础。 走向繁荣 上世纪70年代末,机器翻译进入了它的第三 个时期———繁荣期(1976年迄今)。繁荣期的最重 要的特点,是机器翻译研究走向了实用化,出现了 一大批实用化的机器翻译系统,机器翻译产品开 始进入市场,变成了商品,由机器翻译系统的实用 化引起了机器翻译系统的商品化。 机器翻译的繁荣期是以 1976年加拿大蒙特 利尔大学与加拿大联邦政府翻译局联合开发的实 用性机器翻译系统 TAUM-METEO正式提供天 气预报服务为标志的。这个机器翻译系统投入实 用之后,每小时可以翻译6万~30万个词,每天可 以翻译1500~2000篇天气预报的资料,并能够 通过电视、报纸立即公布。TAUM-METEO系统是 机器翻译发展史上的一个里程碑,它标志着机器 翻译由复苏走向了繁荣。 1978年,欧洲共同体(即现在的“欧洲联盟”) 在继续使用和发展 SYSTRAN系统的同时,提出 了欧洲共同体内 7种语言(后来变为 11种)之间 进行任一方向翻译的多语种机器翻译EURO- TRA,此计划于 1982年正式实施,前后延续了十 多年,至今尚未达到预期的结果。 日本在提出第五代计算机计划的同时,于 1982年至1986年由政府开展了英日、日英机器翻 译 Mu系统的研制,接着,又由通产省出面,组织 与亚洲四个邻国(中国、印度尼西亚、马来西亚、泰 国)合作研究日语、汉语、印度尼西亚语、马来语、 泰语五种语言互译的多语言机器翻译 ODA计 划,原定于 1987年至 1992年完成,后来延长至 1995年才完成,实验效果未尽人意。 欧洲共同体在 1982年开始实施 EUROTRA 计划的同时,还支持了多语言机器翻译系统 DLT 的可行性研究。从 1984年开始,改由荷兰政府和 荷兰的一家软件公司 BSO各出资一半对此系统 的研制进行长期的支持,从1984年到1992年每 年投资均在100万美元左右。DLT系统原打算90 年代中期开始实用化,可是至今尚未得到满意的 结果。 在机器翻译发展的曲折过程中,出现了“计算 语言学”(computationallinguistics)这样的新兴的 语言学科,有力地推进了语言研究的现代化,机器 翻译成为了语言研究现代化的催化剂。 参 考 文 献 [1]冯志伟.机器翻译研究.中国对外翻译出版公司,2004. [2]冯志伟.机器翻译今昔谈.语文出版社,2007. [3]冯志伟.自然语言机器翻译新论.语文出版社,1995. ·语言信息处理· (未完待续) 43· ·
/
本文档为【机器翻译与语言研究_上_】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索