奇书网

奇书网>语言学分析题回答技巧 > 三语言分析方法与当代人工智能问题(第3页)

三语言分析方法与当代人工智能问题(第3页)

自然语言内部是一个层次化的结构,一般可以分为词法分析、句法分析和语义分析等三个层次。这些层次之间互相影响和互相制约,最终从整体上解决对自然语言的处理问题。从自然语言的具体构成来看,一个句子由词素、词、短语、从句等构成,其中每个层次都受到语法规则的约束,而层次关系的实现则直接体现在自然语言句子的构成上。由此,计算机对自然语言进行处理也应当是一个层次化的过程。并且,根据语言的构成规则,在实现人与计算机之间的自然语言通信过程中,计算机除了需要理解给定的自然语言文本,还必须能以自然语言文本的方式来表达处理结果。

因此,对自然语言进行的处理可以分解为:针对输入的自然语言理解和针对输出的自然语言生成两个过程。在输入过程中,系统通过解构文本实现对自然语言的理解;在输出过程中,系统又通过构造生成完整的句子来表达处理结果。这种前提假设从一开始就决定了自然语言处理必须先从分词、句法等语形处理方式入手,而后再通过语义及语用分析来完成对文本意义的理解。然而,目前相关科学的发展,尚不能确定人类在使用语言的过程中是否存在着这种层次关系。不过这种对语言层次的划分,却直接决定了自然语言处理,必然要经历从对词法和句法所进行的语形分析阶段向语义分析阶段发展的路径。

第一阶段主要建立在对词类和词序分析的基础之上。20世纪40年代末开展的机器翻译试验,大多采用特殊的格式系统来实现人机对话。到了60年代,乔姆斯基的转换生成语法得到广泛认可。在这一理论的基础上,开发了一批语言处理系统。基于层次化的前提假设,自然语言处理从一开始就致力于对语言形式的处理,分析过程中以统计方法为主,主要在分词基础上对单个语词进行处理。这些基于语形规则的分析方法,可以称之为自然语言处理中的“理性主义”。

第二阶段则开始引进语义甚至语用和语境的分析,构建了一批大规模语义知识库,试图抛开对统计方法的依赖,采用了与“理性主义”相对的“经验主义”研究思路。20世纪70年代以后,随着认知科学的发展,人们认识到转换生成语法缺少表示语义知识的手段,因而相继提出了语义网络、概念依存理论、格语法等语义表征理论,试图将句法与语义、语境相结合,逐步实现由语形处理向语义处理的转变。但仍然不能摆脱句法形式的限定,无法灵活地处理自然语言。到了80年代,一批新的语法理论脱颖而出,主要通过对单句中核心词的分析,进而完成对整个单句的语义分析。①但是,在缺乏词一级的语义知识库的前提下,要实现对自然语言的语义分析是不可能的。此外,造成自然语言处理困难的根本原因,在于自然语言的语形与其语义之间是一种多对多的关系,从而造成歧义现象广泛存在。这就要求计算机进行大量的基于常识知识的推理,由此给语言学的研究带来了巨大困难,致使自然语言处理在大规模真实文本的系统研制方面成绩并不显著。已研制出的一些系统大多是小规模的、研究性的演示系统,远远不能满足实用的要求。因此,构建基于真实语料的大规模语义知识库(或语义词典),就成为实现自然语言语义处理的必要条件。

基于以上认识,20世纪90年代以来,自然语言处理中的概率和约束问题,引发了新一轮对语言理论问题的思考,出现了一批有实用价值的大型语义知识库。这些大型语义知识库在应用领域取得了一定的成绩,但仍然无法突破单句的限制,过多地依赖于统计学方法,这也是现阶段自然语言处理中最主要的瓶颈之一。然而,从理论方法角度看,基于规则的“理性主义”方法,虽然一定程度上制约了建立在“经验主义”基础之上的语义知识库的发展,但是日益出现在“经验主义”方法中的不足,也需要依靠“理性主义”的方法来弥补,两类方法的融合也正是当前自然语言处理发展的趋势。②

框架网络以菲尔墨的框架语义学为理论基础,以经验为手段来分析和组织概念。它强调概念与意义对人的经验的依赖,将词语意义跟认知结构或框架相连,通过构建语义框架,寻找语言和人类经验之间的紧密关系,从而有效地把人的理解捕获到语义结构中。它主要采取的是机会主义自底向上的方法,有一定的理论指导但没有明确的框架体系。构成框架网络语义知识库的基本语义框架,是从分析者的直觉判断开始的,一个框架的确立需要经过一些认识上的反复过程。由于分析者与分析者之间、分析者与使用者之间的知识背景不同,他们的思维方式也不可能完全相同,因而对问题的理解和认识也会有所不同。由此造成框架网络在一定程度上必然存在着主观性和不确定性,这是构建经验主义语义知识库所不能避免的。①

词网最初源自对词汇知识表示的心理学兴趣。它通过同义词集来表示概念,再由概念间的多种语义关系形成概念网络来构建其知识本体。这是一个高度形式化的、通用的、跨语言的知识表示方法。其目标在于不断地抽象,在语言认知或者纯粹的语言学理论研究中,找到一种跨越不同语言的语法通则。其最大特点是把词语之间简单的同义、同类关系放在非常重要的位置,强调通用、强势的概念体系,从而是一种基于逻辑的理性原则,可视为自然语言处理中的“理性主义”。可见,同义概念和层级分类组织方式,对于词网来说非常重要。然而,对于同义词的衡量标准以及层级的划分,基本上是人为完成的,其同义概念并不能在任何语境中都具有可替换性,否则语言中的同义词就太少了。因此,人为导致的主观性以及由此造成的不确定性,是基于“理性主义”的词网也不能避免的。①

从以上分析可以看出,以经验主义为基础的自然语言语义范畴,其难以形成统一意见的根本原因就在于:①并不是所有的事物都适合放在“层级分类结构”中来认识,硬要将某些概念定位到一个语义分类体系中,常常会感到捉襟见肘。人们到底是用什么样的结构去认识这些事物,还需要进一步从人类认知的角度去探索。②由于人们认知角度的不同,即便使用层级分类结构的方法,这种分类也不是唯一的。很多事物可以同时属于多个类别,人们可以从多个角度去构造关于某个事物的不同的层级分类结构。类似于词网这种在一个语义知识工程中,为“本体”做出的语义层级分类,必然会产生语义范畴的相对性,从而造成层级分类的不确定性。这种语义范畴的相对性表现在很多方面,而这些方面又常常交织在一起,体现了语义概念的不确定性。

(4)自然语言作为思想交流工具,不能仅仅局限于静止状态的文字交流。随着互联网的发展,其创始人提姆·伯纳斯-李(TimBerners-

Lee)于2000年在《科学美国人》中提出“语义网”(SemanticWeb)的概念和体系结构。他希望建立一个以“本体”为基础的、具有语义特征的智能互联网,提供动态的、个性化的、主动的服务。也就是要让具有智能的计算机程序在互联网这种动态开放的无限网络环境中运作,从而实现基于Web的个性化和智能化应用,使得人与计算机之间可以用自然语言顺畅地交流,帮助人类更好地完成工作。基于此种目的,即使是对静态文本进行篇章级别的语义分析,也还远远不能达到信息服务的要求。在更多领域,用户与系统之间以及系统与系统之间,还需要进行大量的实时交流。作为交流的一方,无论是提问、回答还是讨论,都是在双方言语的不断变化过程中完成的。在这一过程中,双方面临的语境是不断变化着的,而每一方的语义应该是连贯的,并且双方都不可能在获得对方的全部言语之后才进行语义分析。这就要求作为交流一方的计算机系统,可以根据交流的进行实时地对双方的语义内容进行新的分析和推理,但现有理论根本无法达到这一点。在语法和句法问题的局限下,人们还不曾探讨动态交互过程中利用语义方法来实现自然语言交流的问题。

因此,突破单句的限制,根据整个动态交互过程中语义和语境的变化情况,对用户实时输入的语句进行处理并生成相应的结果,是实现语义网的必然要求。

3。自然语言处理的发展趋势

从智能互联网的总体目标来看,要实现语义网,就必须首先解决“语义表达问题,即如何使得网络中的各种信息、数据等资源能够有效地表达并被理解,使得它们成为计算机所具有的‘知识’,进而能够被计算机所共享和处理”①。要达到上述对智能的需求,自然语言处理就不能停留在现阶段仅仅对语言形式进行处理的水平上,只有深入到语义和语用层面,才有可能使自然语言处理具有智能色彩。“当前,内容处理已成为网络浏览检索、软件集成(Web服务)、网格等计算机应用的瓶颈,语义处理也是下一代操作系统的核心技术。形形色色的软件技术最终都卡在语义上,语义处理已成为需要突破的关键技术。人工智能、模式识别等技术已有相当进展,但内容处理还处于重大技术突破的前夜,究竟什么时候能真正取得突破性的进展现在还难以预见”②。可见,语义表达问题,已成为现阶段自然语言处理中最核心的问题之一,自然语言处理从语形学到语义学的转向,业已成为认知科学领域研究的新焦点。

(1)从整体到局部的思想转变,将是下一阶段自然语言处理能否取得突破的关键所在。

自然语言处理中大量涉及常识知识问题。20世纪70年代以后,专家系统等人工智能技术的发展,使研究者们逐步认识到常识知识在智能系统中的重要作用,但要通过构建海量常识知识库来实现人工智能是不现实的。在没有搞清楚人类是如何组织常识知识的前提下,如何组织如此庞大的海量常识知识是难以跨越的鸿沟。从认识论的角度来看,常识知识的形式化是人工智能的核心任务,其特点是基于某个透视域对世界进行抽象描述,具有不完全性和不确定性。从本体论的角度来看,常识知识表述形式是对世界的近似表征,必然会忽略某些方面,并且关注的是世界的本质内容而非语言形式,因此所构建的本体具有一定的相对性。从方法论的角度来看,常识知识库将常识知识形式化地表征为一类数据结构,并在其上进行常识推理等运算,且由于应用的可实现性而专注于对某些特定领域知识的描述,具有某种程度的随意性。从现有的常识知识库来看,普遍关注常识知识的表征形式而常常忽略其本质内容,这也是造成语义网研究进度缓慢的原因之一。

基于上述考虑,需要在构建大规模语义知识库的过程中,针对某些有实用价值且应用相对普遍的领域进行构建工作,避免构建大而全的海量常识知识库,从而率先实现在特定应用领域的突破。这一从整体到局部的思想转变,已引起某些人工智能专家的注意,它将是下一阶段自然语言处理能否取得突破的关键所在。

从目前各大型语义知识库的构建工程中可以看出,试图完成所有常识知识的语义描述是不可能的,要想有实用价值,只有针对特定领域才有可能有所突破。以汉语框架语义知识库(eseFrame,简称

)为例,需要做的不是描述汉语全部词语的语义框架,而是着力开发针对一定应用领域的语义框架和应用系统,诸如网上购书系统、旅游问答系统、天气预报系统、法律法规系统等多个应用领域。这些领域的共同特点是有很强的应用价值,并且领域相关的词汇量不是很大,可以在较短的时间内完成研发工作并投入使用,获得可观的社会效益。

通过对旅游问答系统、网上购书系统、医疗系统、行政系统及法律法规系统中的真实语料进行词元提取操作,可以发现,在特定领域数据库中,某类词或短语在文章中出现的频率较其他类别的词语高许多,并且它们在文章中的位置相对固定,用法也较为一致。更为可喜的是,这些领域数据库中的文章在体裁、结构甚至表述方法上都有很强的相似性。由此可以大胆提出,完全有可能突破现有的基于词语来分析单句语义的描写方式,转而通过对高频词与核心词的提取,直接针对一些特殊领域的数据库,构建基于篇章的语境描写框架。这就使计算机在对文章中具体的句子进行语义分析之前,首先对整篇文章有一个语义上的整体认识,构建一个篇章级别的语境,进而再通过对具体语句的语义分析,纠正并完善对该篇文章的意义理解。

应当看到,虽然这是一种机会主义的分析方法,但它突破了原有的从词汇开始进行语义分析的自下而上的技术路线。因为它采取了对整篇文章自上向下的分析视角,排除了在单个词语分析过程中不符合整篇文章意义的歧义内容,使文章中的句子之间产生连贯的语义关系。在此基础之上进行的推理势必可以达到更好的理解效果。现阶段,无论从语言学方面还是计算机技术方面,我们都不可能实现针对某种语言的全部应用构造篇章级别的理解框架。只有在特定的应用领域,才有可能提前实现更具智能化的全文机器翻译。这一思路在自然语言处理的很多特定领域中,都有着广泛的应用前景,可以为许多公共领域实现更具智能化的信息提供服务。

(3)动态语义分析是亟待解决的关键性难题,也是下一阶段自然语言处理的重要发展方向之一。

无论是智能互联网的智能主体还是人工智能中的智能机器人,对段落篇章的语义分析都是它们进行推理和理解的前提。然而,仅仅是对静态文本进行篇章分析还远远不能达到信息服务的要求,在更多领域,对智能互联网的人机动态交流的需求,要求引入语用技术,使得作为交流一方的计算机系统,可以根据实时交流中变换着的语境,对双方的语义内容进行新的分析和推理,而这是现有理论所缺失的。

与篇章分析类似,现阶段我们还不能实现针对某一语言的全部应用来构造基于动态的理解框架。然而,通过对旅游问答系统、网上购书系统、医疗系统、行政系统及法律法规系统的分析可以看出,在这些特定领域,人们的提问意图、提问方式和提问顺序之间有一种内在的必然联系。我们可以根据这种规律性构建基于语境的动态理解框架。其实质就是对一些逻辑思维的程序化抽象,通过与数据库中已经存在的动态框架进行匹配,在逐步判断的基础上,实现系统对情境变化的选择与修正,从而实现对对方意图或语义的理解。由于在这些特定领域内,如天气、旅游、司法等专业领域,人们的意图有很强的相似性且种类非常少,使用的词汇也比较集中,应用价值也非常高,因而可以率先在这些领域中进行动态语义知识的研究。

(4)理性主义技术路线与经验主义技术路线的融合趋势

要想满足自然语言处理的应用需要,如机器翻译、问答系统、信息抽取等,必须模拟人类理解语言的认知机制,具备一定的推理能力。然而,认知科学是一门以人工智能、神经生理学、心理学、语言学、哲学为基础的交叉学科,在人类还没有弄清楚人的认知行为之前,自然语言处理的哲学基础是理性主义和经验主义。理性主义认为通往知识的道路是逻辑分析,而计算机中处理的自然语言符号,恰恰是建立在逻辑语言基础之上的,其智能的实现很大程度上要依赖于逻辑理论,经验主义认为知识通过经验来获取,自然语言处理中的很多成果,都应归功于大量的实践基础。然而,无论理性主义还是经验主义,在自然语言处理中都遇到了不可逾越的障碍。

从以上对词网和框架网络的分析中可以看出,目前语义知识库中记录的主要是语义关系知识。传统的结构主义语言学把语义关系类型分为聚合关系和组合关系两类。一般来说,聚合关系反映同质语言成分之间的类聚性质(例如,词网),利用聚合关系构建的语义知识库主要采取理性主义技术路线,而组合关系则体现异质语言成分之间的组配性质(例如,框架网络),利用组合关系构建的语义知识库多采用经验主义技术路线。①二者在自然语言处理的不同应用中都可以发挥作用,具有很强的互补性,并且它们都是在计算机对“语言形式”做各种类型的变换(组合)操作时,作为约束(判别)条件来使用的,它们的融合有助于构建功能相对完善的大型语义知识库,是未来语义研究工作的一个重要方向。②

(5)自然语言处理正实现着从语形网(TheSyntacticWeb)到语义网的转向,下一步很有可能向语用网的方向发展。

早在20世纪30年代,美国哲学家莫里斯把语言符号划分为三个层面:语形学、语义学和语用学,之后,德国逻辑学家卡尔纳普也提出了与莫里斯相类似的划分。在自然语言处理中,语义是实词进入句子之后词与词之间的关系,是一种事实上或逻辑上的关系。所谓语义框架分析,就是用形式化的表述方式,将具体句子中的动词与名词的语义结构关系(格局)表示出来。虽然现阶段的框架建立在“场景(se)”之上,并在一定程度上体现出“立场(standpoint)”的概念,但这仅是局限在单句范围内的“小场景”和“施事”方的“小立场”,还不能反映站在语言使用者角度(或立场),在文章层次或隐喻着社会知识层次的这种“大场景”(即“语境”)下的语义关系。

正是在这个意义上,以强调语言使用者的主体性和语境描述为特征,自然语言处理从语义阶段进入到语用阶段,这也是将自然语言处理划分为语义阶段和语用阶段的意义所在。实质上,从语义阶段到语用阶段的转换,实现了将语义和语用统一于一个认知模型的过程。“一方面,语义学通过语言表达式的语法规则提供了语言的编码——解码装置,将物理实在与语言代码有机结合起来,另一方面,语用学则诉诸具体言说和行为语境,通过主体意向性在交流中将思想转化为语言推理过程,形成了对世界的认识和对知识的传达。它们构成了解释人类行为和意义的认知系统。”①

总之,自然语言处理正经历着一个从语形到语义、再到语用的逐步递进的发展过程。基于自然语言处理的智能互联网,其发展历程似乎正遵循着莫里斯和卡尔纳普的理论,在经历了前一阶段的语形网之后,正逐步迈向语义网这一新的阶段,最终很有可能迈向语用网这一更高层次。

热门小说推荐

最新标签