目前, 自然语言理解研究已经取得了令人瞩目的成绩,在某些方面, 有的研究成果已达到了实用化的程度, 比如根据数据库里的信息回答问题或处理事务, 按照自然语言的命令做一些简单的事情等等。 但自然语言理解并未取得根本性的突破。文献[5]甚至认为“整个自然语言理解获得成功的例子, 不过是解决了一个极为微小的积木世界的问题”。要使计算机达到人的理解力,目前在技术上还面临着艰巨的挑战。首先,自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如,但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。 传统的语言学是在没有计算机参与的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变得在计算机上可操作, 绝不是那么简单, 也不能那么模糊。 其次, 自然语言的各个层次上都含有巨大的不确定性。 在语音和文字层次上, 有一字多音、 一音多字的问题; 在词法和句法层次上, 有词类词性、词边界、句法结构的不确定性问题; 在语义和语用层次上,也有大量的因种种原因造成的内涵、外延、指代、言外之义的不确定性。语言学上把这些不确定性叫做“歧义”。歧义一般不能通过发生歧义的语言单位自身获得解决, 而必须借助于更大的语言单位乃至非语言的环境、 背景因素和常识来解决。 人类有很强的依靠整体消除局部不确定性的能力和常识推理能力, 使计算机获得同样强大的能力, 还有很长的路要走。 自然语言不是一成不变的, 它在社会生活中发展, 在操不同语言和同一语言的不同变体的人们之间相互影响变化。一个词、一个说法可能在一夜之间突然流行起来,特殊的人群结构变化会导致新的语言或新的语言变体(如方言)的出现。 这就要求理解自然语言的计算机程序要具有对外界语言环境的应变能力。最后, 自然语言是人们交流思想的工具。 既然交流的是思想, 那思想本身在计算机里的组织结构就显得格外重要。在人工智能里,这就是“知识表示”的问题。 可以说, 在知识表示问题上的突破, 对于自然语言理解的进展将产生决定性的影响。
解决基于中文的自然语言理解问题,计算机必须获取句法知识,语义知识和语用知识。单纯从语法层面,不结合语义、 语用,自然语言理解很难提高。语义研究是理论和实践突破的关键。肯定地在语义空间把握语言和建设语言系统。这样将打破语种,领域的局限,进入更宏观的语义理解进而实施构建之工程。
4、前景展望和研究意义 国内外关于自然语言处理与理解方法的研究, 长期专注于“语法”层次的研究。20世纪末期以来, 人们认识到单纯在语法层次上的研究不能解决问题, 开始进到了 “语义” 的层次, 最好的例子就是互联网络这几年的研究正在从WWW走向语义网Semantic Web。然而,自然语言是语法、语义、语
用三者的“有机统一体” , 只从语法、语义两个层次上研究也不能很满意地解决问题。 语用研究的空缺已经日益阻碍了自然语言处理的发展。只有语用、 语义和语法信息的研究都成熟了, 才能真正通过分析获得自然语言所表达的信息, 达到与人类交流对话的水平。 因此, 未来的趋势是要充分研究和利用自然语言的语法、 语义和语用信息。 实际上, 走向语法—语义—语用三位一体的层次是必然的出路, 语用作为自然语言中体现效用价值的因素不可能因为困难总被回避,现在已经到了必须要面对的时候了。
人类已经迈入21世纪, 计算机和互联网的广泛应用昭示着信息时代的到来。 计算机可处理的自然语言文本数量空前增长, 面向海量信息的文本挖掘、 信息提取、 跨语言信息处理、 人机交互等应用需求急速增长, 自然语言处理研究必将对我们的生活产生深远的影响。
随着我国现代化建设的发展, 信息处理技术的自动化愈来愈显得紧迫。 人类历史上用语言文字形式记载和流传的知识占到知识总量的80%以上。据统计, 目前计算机的应用范围,用于数学计算的仅占10%, 用于过程控制的不到5%, 其余 85%以上都是用于语言文字和信息处理的, 并且随着计算机的普及和性能的提高、价格的降低, 这一趋势还在增大。 语言信息处理的技术水平和每年所处理的信息总量已经成为衡量一个国家现代化技术水平的重要标志之一。 因此自然语言(汉语)处理已成为一个引人注目的重要学科, 是我国实现信息化和现代化的必经之路。 可以这样说, 汉语自然语言理解作为中文信息自动化处理的关键技术, 每提高一步给我国的科学技术、文化教育、经济建设、国家安全所带来的效益, 将是无法用金钱的数额来计算的。 反之, 如果落后了,不管是落后于国际水平还是落后于现实需求,后果都是严重的。
5、结束语 在自然语言理解研究的实践中, 研究者虽然认识到计算机的 “自然语言” 是一种人工语言, 但仍希望电脑能达到人脑对自然语言理解的水平, 其中 “知识表示” 问题就典型地反映出这种矛盾状况。 人们至今不能确定, 计算机究竟应该储存多少常识和专门知识, 才能达到令人满意的自然语言理解水平。 机器自然语言理解本质界定的不明确性是出现上述情况的一个重要原因, 实际上, 这也是目前存在颇多分歧的问题之一。因此, 要真正达到机器完全理解自然语言还有很长一段路程。
就自然语言理解的现状和笔者的研究体会在此强调如下两个方面:既要进行语言的语义的彻底揭示,也要保护人类语言的鲜活。前者不够深入则不能良好地进行计算机实现,很多技术瓶颈难于实质性地突破;后者如果把握不好,将出现语言精华的流失,自然语言把握能力的衰退。当计算机到达具有篇章语义的处理能力时,自然语言反而失去活力,不自然了。亦即上下求索的两个方面都需要把握好,否则文理的对峙将不能得到消融反而会加深,这将是巨大的遗憾。相反作为理解语言的两极其平复融合将能更深刻的相互解释和支持,实现人类对语言的完备认识。我们正致力于这个良好的平衡的达成。
-
网站
-
营销
-
设计
-
运营
-
优化
-
效率
-
专注
-
电商
-
方案
-
推广
微信公众号
版权所有© 亿企邦 1997-2025 保留一切法律许可权利。