机器翻译
时间:2024-01-22 02:10:01 | 来源:信息时代
时间:2024-01-22 02:10:01 来源:信息时代
机器翻译是通过计算机来实现不同自然语言之间的转换,也称为自动翻译,一般是指自然语言之间的部分句子或全文的翻译。它作为应用语言学的一个分支,是建立在语言学、数学和计算机科学基础上的跨学科研究。由于需要通过电脑数据库和翻译软件来完成操作,因此,机器翻译的发展与计算机科学、数学、人工智能、语言学等各学科的发展密不可分,可以说,机器翻译的推进需要这些学科的技术支撑和理论支持。人类进入21世纪以来,随着经济的发展,国际交流合作日益频繁,对机器翻译的需求日益增大。机器翻译是规避国家间交流障碍的有效手段,但作为综合性的学科,它的发展受到多方面牵制,因此需要相关研究人员和学者对其相关学科进行更深入的研究。
1机器翻译发展历史
机器翻译的历史最早可以追溯到20世纪30年代相关学者提出其雏形,如今处于高速发展的阶段。然而在初期机器翻译受到过阻碍,一度陷入低潮期。直到移动互联网时代的到来,一方面,随着计算机网络技术快速发展,人们要求用计算机实现语言翻译的愿望越来越强烈。另一方面自1990年统计机器翻译模型提出以来,基于大规模语料库的统计翻译翻译方法迅速发展,机器翻译再次成为人们关注的热门研究课题,取得了一些令人瞩目的成果。但是,在机器翻译飞速发展的同时,也遇到了很多难题,在目前的技术条件下翻译的质量还不能够达到人们的期望的程度,想让机器让人类一样去理解和分析语言还远不能行。在当今信息大数据时代,机器翻译正发挥越来越重要的作用。
机器翻译的发展可以归结为以下几个发展阶段:
1.1机器翻译人员的独立工作阶段
20世纪50年代初期,随着第一台计算机的问世,美国的科学家W.Weaver和英国工程师A.D. Booth就发表了翻译备忘录,提出了利用计算机进行翻译的设想。随后,通过不懈的努力和试验,美国的乔治伦敦大学和IBM公司合力推出了首个MT系统,为各国的机器翻译奠定了坚实的实践基础。但是由于受到计算机硬件局限性的限制,尤其是内存不足和存储速度慢,以及缺乏高级编程语言,研究人员无法完全依赖机器来完成大规模、高质量的翻译任务。同时,由于研究是在没有句法学家和语义学家的协助下独立进行的,翻译的质量难以保证。
在这样的背景下,早期研究者意识到,无论开发出什么样的系统都只能产生出低质量的输出,因此专家建议,先发展对有控制的语言进行翻译,并限定于某些特定领域。
1.2进入高质量的翻译输出
20世纪60年代,受到改进了的计算机硬件和编程语言的鼓舞,研究人员对机器翻译产生了盲目的乐观。编程语言在句法分析上取得的长足进步让翻译人员感受到了技术革新的成果,他们相信机器翻译有巨大的前景,几年之内就可以达到高质量的输出,这一乐观论调很快传遍了全世界。研究人员还提出假设:机器翻译的目标是产出高质量翻译的全自动系统。研究的重点在于寻求完善的翻译理论和方法。
1.3翻译软件和工具的发展
20世纪70年代以来,随着科技发展和各国间频繁交流,大规模翻译需求日益增加,对计算机翻译的依赖更加突出,机器翻译进入了新的发展阶段。实用性翻译和软件系统如雨后春笋频频出现,如Weinder系统、EURPOTRA多国种翻译系统、TAUM-METEO系统等。80年代产生了大量连接网络和大容量存储的微型计算机,各种翻译工具也应运而生,如词典和术语资料库、多语文字处理、词汇和术语资源的管理、信息传递的输入和输出。最近又新添了“翻译记忆”功能,它能够存储已存在译文,以便为再利用和修订提供范例。
这一时期的机器翻译已经逐步进入了机器和人工相结合的阶段,机助人译(Computer-aided Machine Translation)和人助机译(Human-aided Translation)相互结合,对各种类型和规模的翻译做出了突出的贡献。同时语料库的发展和应用为机译提供了坚实的理论和技术来源,机器翻译进入到崭新的上升阶段。
1.4我国机器翻译的历程
我国的机器翻译始于1956年,由于当时与苏联的经济政治往来,我国对于机器翻译的需求逐渐显现,中俄语言间的互译催化了MT系统。80年代后,我国研制了KY-1和IMT/EC863两个英汉机译系统,随着计算机技术的成熟和发展,许多计算机公司研制出了一系列高科技的机译软件,如“译星”、“雅信”、“通译”、“科建”等。
机器翻译由简单到复杂,从初级到高级,不断进行着理论和实践的双重革新。其发展历程可概括为以下三代:第一代初级阶段,利用机器翻译词汇,不进行语法分析;第二代进步阶段,对句子的结构和语义进行分析;第三代人工智能阶段,随着心理学,特别是认知心理学的发展,人们认为电脑可以复制人脑的信息处理机制,使机器翻译更加智能化和自动化。目前,各国学者正经历着第三阶段,不断地攻克各种难关,提高机器翻译的质量和效率。
2机器翻译的研究方法
机器翻译研究方法可以从两个方面来叙述,一方面是语言学理论的应用,另一方面是MT研究者们实际所从事的内容。
2.1语言学的方法
机器翻译研究已经被看作一个试验新的语言理论或新的计算技术的领域。换言之,MT已经被视为语言理论的实验基础,因为翻译翻译的质量能由非专家来判断。
与之相关的理论有:20世纪50、60年代的信息理论、范畴语法、转换生成语法、从属语法和层次语法;70、80年代的人工智能、非语言知识基础,诸如词汇功能语法、广义短语结构语法、中心词驱动短语结构语法和蒙太古语法等形式主义理论;90年代的神经系统网络、连接主义、平行处理和统计学方法以及他理论。 人们还发现,那些以小样本为基础,在最初的试验中取得成功的新理论,最终都被证实存在一些问题。为了解决这些问题,必须检验一切有希望的方法并鼓励修正。
20世纪90年代初期,以语料库为基础的方法的出现使机器翻译研究有所增强,特别是引入了统计学方法和以实例为基础的翻译。统计学技术已经摆脱了以前专门以规则为基础(通常定位于句法)的方法的不足和它越来越明显的限制。在以语料库为基础的技术帮助下,歧义消除的问题、首语重复的解决和更多惯用语的生成都已经变得更容易驾驭。
2.2转移法
根据机器翻译转移理论的多数观点,在机器翻译系统中有某种转移成分。这种成分是特定的,从而一对语言可产生一个目标句子。转移成分有一个相应的词库,这是源语言的范式和短语映现于目标语言的包罗万象的清单(Napier,2000)。大量工作取决于对两种语言具体比较的信息。这种转移系统意味着,对每两种语言来说便要翻译,因此这种方法主张翻译本质上就是一种比较语言学的练习。由此可见,必须建立一个词库。
2.3语际法
语际法基于这样的理解:在一批语言的每两种语言之间,只要求将每一个成语语言翻译成中间语言(interlingua),再从中间语言翻译成某种语言。如果有n种语言,就需要n个成员被翻译成目标语言。但Arnold等(1995)对这种方法不以为然,认为使用中间语会导致信息的丢失。
2.4基于知识的方法
近来的趋势是转向基于知识的机器翻译,这是由Carnegie Mellon大学与新墨西哥州立大学的语言研究中心创导的。Arnold等(1995)认为需要3种知识来改进机器翻译系统。
(1)不依赖语境的语言学知识(语义学)。研究者将词语和语义特征联系起来,从而能对其他出现的词语加以制约。
(2)依赖语境的语言学知识,有的成为语用知识(语用学)。有多种方法处理语用学问题,其中之一是学习句子焦点的概念。
(3)常识/真实世界的知识(非语言学知识)
前两类是针对语言本身的,问题不是最大,计算机缺乏真实世界的知识才使研究人员苦恼不已。例如,计算机不能发现一个可吃的苹果和个人计算机苹果品牌之间的区别,也不能说明汉语中“山顶”的“顶”、“顶风”的“顶”和“顶好”的“顶”的不同意义。多少年来,正是这样的问题不仅困扰机器翻译的理论家,也困扰神经网络和人工智能的研究者。
随着语料库语言学的发展,最近研究者转向基于例句的机器翻译的研究。该方法将正确的翻译作为信息资源,以建立新的翻译作品。
3转换生成语法――机器翻译的语言学理论支撑
机器翻译作为一门交叉学科,涉及到多学科的理论支持,其中语言学为机器翻译提供了文本的语法和语义的规范基础,尤其是美国语言学家诺姆・乔姆斯基 (Noam Chomsky)提出的转换生成语法。该语法经过不断修正和改进,探索了人类语言的本质、起源和人类普遍语法的深层机制。乔姆斯基提出表层结构和深层结构能够对语义进行语法和句法分析。借由他的理论,可以对词典中的词条进行描述,分析机器翻译中的词义,从而有效地避免语义错误。乔姆斯基的理论给计算机科学的发展带来了革命性的变化,也推动了机器翻译的发展。
4机器翻译存在的问题
一是自然语言中普遍存在各种歧义、未知现象,以及层出不穷的新词热词。歧义;导致歧义有两个原因,一是自然语言中固有的歧义现象,包括词汇歧义和语法歧义;另一个是由于语言、文化间的差异产生的歧义。一个句子如果有以上问题,就可能表达两种或多种意思,容易给机器造成理解上的偏差和误解。而是机器翻译自身的局限,正如翻译不应该是单纯字对字的转换,理想的机器翻译也并不是仅仅是字符串的转换。机器翻译是人工翻译的模拟,它能帮助译者完成大量简单的翻译工作,但做不到像译者那样灵活。译者可以根据原文、结合语境、自己的生活经验、双语知识和相关文化背景来对原文进行理解,对原文进行自由组合、增加或删减,也可以适当添笔修饰润色。在不违背原文又考虑到译入语的情况下,译者有足够的翻译自由。但机器翻译不同,它的翻译过程是建立在严密的逻辑程序基础上的,它没有思考、判断、推理、修改的能力,机器翻译永远不可能真正地替代译者。
5解决方案
机器翻译如果想得到长足的发展,必须采取一些相应的措施。
5.1加强系统中词典的研究
机器翻译中的词典是为语言处理程序提供源语言基本构成元素所具有的各种相关词法、语法、词义、语义、语用、常识等方面信息,包括目标语言的对译关系的一个复杂特征信息集合。它是自然语言处理程序赖以对源语言进行分析加工的主要信息来源。
面向机器翻译的词典配备各种语言学知识。例如固定搭配和固定句型的知识等。把固定搭配和固定句型等相对稳定的英语用法以词条的形式构成专项典。该方法可有效地避免很大一部分的词义选择的错误。还要加强词典的结构建设,以便最优地综合利用词中的信息, 对原语进行分析加工处理。
5.2寻求复杂多义区分的途径
多义区分是机器翻译研究中最难解决的问题。现有系统使用的方法一般都是通过深入分析原文输入, 并把它转化为不含多义性的一种内部结构表示,如带有注释或词义作为终极节点语法分析树。多义问题的解决,其关键在于如何通过对原语言的深入分析排除多义性。这就要求词典提供尽可能全面的, 根据特定的上下文相关性选择词义的搭配、语用、语境等基本信息。这些信息可以语义限定的方式记载在词典中。以序数词为例,限定在一个英文句子中,当序数词之后出现1至12月份中的任何一个月份名称时,则该序数词译为相应的基数词加上“号”。
5.3重视系统中上下文相关处理
所谓上下文,一般是指一个语言结构成分或意段的语法或语义属性的选择,与其上下文中的某一位置的结构成分或意段的语法或语义特性的当前值有关。在现有大多数实用文法系统中,这种成分之间的相关性只能解决规则内成分的相关性,而规则外成分间的相互关系基本上都回避了。因此,根据自然语言的这种上下文相关性,分析总结自然语言中的上下文相关现象的各种规律,并使这些现象的处理能够直接被结构分析规则所支持,是完善MT系统的一个重要方面。
5.4设计强有力的文法体系
文法体系的设计,应打破以往以句法为主的局面,要充分发挥语义在体系中的主导作用。以基于语义的格语法和依存语法为理论基础的文法体系,就曾在机器翻译中显示出独特的优势。虽然,语义与句法相比变化更为复杂,但它可以成功地回避英汉语言间结构上的差异。随着计算机存储量的增加和处理速度的提高,复杂的语义是可以被系统很好地解决的。英汉机器翻译的实现,是加强中国与世界联系和合作的有效途径。提高系统的译文质量要靠各方面专业人士的共同努力,尤其是不可忽视语言学者的参与。对现行系统中存在的诸多问题要给予足够的重视。多设立专题研究,在考虑全局的条件下,把研究工作做深做细,争取各个有所突破。英汉机器翻译不容忽视,相信随着语言学理论和计算机技术的发展,英汉机器翻译一定会逐步走向成熟。
6结语
机器翻译自19世纪60年代以来,历经不同时期,目前虽已形成稳定的发展模式,仍需要各方面的努力使之趋于完善。全球化、科技化日益发展的今天,国家间交流频繁,机器翻译的重要性愈加凸显。然而,不成熟的机器翻译体系还不能实现高质量的纯机器译本,这需要计算机科学、语言学及其他相关学科的人员相互配合,不断完善翻译技术。期待在不久的将来,机器翻译可以得到一个质的飞跃,更好地服务社会生活的各个领域。
-
网站
-
营销
-
设计
-
运营
-
优化
-
效率
-
专注
-
电商
-
方案
-
推广
微信公众号
版权所有© 亿企邦 1997-2025 保留一切法律许可权利。