三、语言分析方法与当代人工智能问题
当代认知科学和人工智能研究的核心论题——人工智能表征和自然语言处理问题同样经历了语用化发展。作为人工智能的核心领域之一,表征理论的发展水平直接决定了计算机可以达到的智能水平,然而,人工智能表征的分解方法在自然语言语义理解方面遇到各种瓶颈,该难题要想获得突破,就必须以整体性语境描写方法取代传统的基于词汇的语境描写方法,从而在表征问题上突破句子层次结构的限制和句法、语义、语用三个平面的划分,实现整体性语境构建方法与分解方法的有机融合,自然语言处理是计算机智能的核心技术,但由于缺乏统一的理论基础以及思维模式的限制,其发展速度相当缓慢,至今尚未取得重大突破,经历了从整体到局部的思想转变之后,下一阶段自然语言处理的关键就在于,在动态语义分析中引入语用技术,从而在语形和语义阶段的基础上,朝向新的语用化阶段发展。
(一)当代人工智能表征的分解方法及其问题
“认知科学必然以这样一个信念为基础:那就是划分一个单独的称之为‘表征层’的分析层是合理的。”①在人工智能早期阶段,表征(repre-sentation)融于计算之中,这对于编程人员和专家系统的领域专家来说都是一件烦琐的工作。系统程序一旦编好,要想修改就非常困难。并且,不能重复利用已有系统,这在很大程度上浪费了人力和资源,不利于人工智能理论与工程的发展。到了专家系统阶段,知识库和推理机的分离机制,使人工智能表征和计算以相对独立的姿态在各自领域展开研究。这是人工智能发展史上的一次巨大进步。然而,基于形式系统的人工智能在模拟人类智能过程中,在表征问题上发展非常缓慢,遇到了难以逾越的鸿沟,所有的瓶颈问题最后都落在了理解自然语言的语义问题上。我们认为,基于分解(analysis)的方法是造成人工智能表征瓶颈的关键所在。因此,有必要从处理人工智能表征的思想方法入手,探索解决这一难题的可能途径。
1。分解方法已经成为人工智能表征发展中的瓶颈
自1956年达特茅斯(Dartmouth)会议提出“人工智能”以来,作为人工智能核心技术之一的表征,其发展速度相当缓慢,至今尚未取得重大突破。这是一个值得深刻反思的问题。建立在形式系统之上的人工智能,在处理表征的方法问题上,通常认为“句子的意义由其语法(gram-mar)以及单词的意义决定”①,而语法“用于制定如何由词造句的原则”②。并且,受乔姆斯基的有限状态语法(fiegrammar)、“短语结构语法”(phrasestructuregrammar)以及“转换生成语法”(transfor-mationalgrammar)三个语法模式理论的深刻影响,将句子分解为层次结构的思想成为人工智能表征的主要方法之一。以上述思想为预设,人工智能在处理表征问题时主要采用句法分析(Syntaxanalysis)、语义分析(Semantialysis)以及词汇分析(Lexialysis)等基于分解的方法。而这些分解方法实现的基础是首先将句子分解为单词,计算机才可以采取进一步的智能处理。可见,无论是哪个角度、哪个层面的处理,人工智能表征所采取的方法都是基于分解思想的。从人工智能理论发展的历程来看,分解是建立在形式系统之上的人工智能表征的必然选择。然而,在发展到一定程度之后,分解方法的弊端逐步凸现。因此,思想方法的转变成为下一步人工智能能否取得突破的关键所在。不过,新的方法必然要以分解方法为基础,我们很难在形式系统上构建完全脱离分解思想的新的表征方法。由此,正确认识分解方法的思想本质成为新方法建立的前提。
第一,分解思想是造成人工智能表征各种瓶颈问题的理论根源人工智能表征在发展到专家系统阶段之后,就逐步从自然语言处理的语形阶段向语义阶段迈进。而在自然语言处理的思想方法问题上,对语言意义的处理深受相关哲学思想的影响。其思想方法的哲学根源在于:为了获得关于语言本性的认识,首要的就是把意义概念置于首位。因此,“从一开始,包括弗雷格、罗素、卡尔纳普以及语言学家乔姆斯基等,在探讨意义理论时就未加分析地预设了许多前提”。对于自然语言处理影响最深的思想就是,“意义本质上在于把词和事物联系起来,句子的意义由它各组成部分的意义构成,或是它各部分的意义的函数,句子的本质作用是描述事态。这些理论或者采取的是意义规则的一种运算的和语形的形式,或者是一种自然语言的语义学形式”①。这种以分解为基础的指导思想映射到自然语言中就表现为,一个句子可以看作由词素、词、短语、从句等不同层次的成分构成,其中每个层次都受到相应语法规则的约束,层次之间互相影响和互相制约,而层次关系的实现则直接体现在自然语言句子的构成上。各个层次分解的意义最终组合成人们对整个自然语言句子的理解。
受这一思想的深刻影响,大多数自然语言处理都遵循以下方法:计算机对自然语言的处理是一个层次化过程,计算机用分解方法对输入的自然语言进行理解,并以构造方法生成所要输出的自然语言。并且,在这个过程中,语言的词汇可以被分离出来加以专门研究。这是一种建立在分解基础上的指导思想。根据语言的构成规则,在实现人与计算机之间的自然语言通信过程中,计算机除了需要理解给定的自然语言文本,还必须能以自然语言文本的方式来表达处理结果。因此,自然语言处理的核心技术主要包括:针对输入的自然语言理解(NaturalLaanding)和针对输出的自然语言生成(NaturalLaion)两个过程。在输入过程中,系统以分解的方式,把自然语言逐层转化为计算机程序可以处理的表征形式,并利用各种层次的相关知识,进而实现对自然语言的语义理解;在输出过程中,系统又通过构造的方式生成完整句子,从而将所要表达的处理结果转换为人类可以读懂的自然语言。这样,智能系统不仅可以“听懂”人的语言,而且可以“说出”它想要表达的意思。这种基于分解的指导思想从一开始就决定了自然语言处理必须先从分词、句法分析、文本分割等语形处理方法入手,而后再通过语义及语用分析来完成对文本意义的理解。
然而,语境论指出,语词的意义由其所在的句子决定,而句子的意义由其所在的上下文(text)即“语境”决定。计算机在基于分解的语形处理基础上,必须借助于知识库中的常识知识才能进一步实现语义及语用处理。而常识知识工程的失败表明,用于语义理解的知识“是语境相关的。也就是说,关于知识的主张的正确与否,会随着会话和交流的目的而变化,因而,知识主张的适当性也是随着语境的特征变化着的”①。基于静态知识描写的常识知识工程不可能将语词在所有可能语境中的意义都预先表征出来。并且,语境在本质上是动态的和整体论的。在缺乏整体性知识的前提下,这种以静态知识表征为主要特征的分解方法在文本语义理解方面一直无法突破单句的限制,从而实现对句群甚至语篇的理解。即使在单句范围内,对句子语义理解的正确率也很低。这也是我们在使用一些搜索引擎或翻译软件时,处理结果一直不能如人所愿的根本原因。
第二,句法、语义以及语用平面的划界问题是分解方法难以突破的一大难题根据现代符号学和语言学理论的观点,一般认为,语言可以分为句法、语义和语用三个平面。莫里斯指出,“句法学是对符号间的形式关系的研究”,“语义学是对符号和它所标示的对象间关系的研究”,而“语用学是对符号和解释者间关系的研究”①。后来,他依照行为理论进一步扩张了语用学的研究范围,认为“语用学研究符号之来源、使用和效果”,“语义学研究符号在全部表述方式中的意义”②。莫里斯给出的这种纲领式划界观,对后来的语言学、语言哲学等领域产生了深刻影响。
对基于形式系统的自然语言处理来说,句法、语义、语用平面之间的划界问题并不像语言学或哲学中那么容易。虽然在某种程度上我们可以分别从句法、语义和语用的平面来对自然语言进行语义分析,然而,语义理解在本质上是三个平面共同作用的结果。可以说,三个平面理论本身就是用一种分解的思想来审视自然语言。在以形式系统为基础的自然语言处理中,分解方法无法突破三个平面之间的划界问题,实现对语言意义的整体性理解。
无论是层次性的处理方法,还是三个平面的划界问题,都以基于分解的思想方法为指导。这成为自然语言处理在语义问题上难以逾越的方法性障碍。只有厘清造成分解方法瓶颈的原因所在,才有可能找到解决瓶颈问题的新方法。
2。造成分解方法瓶颈的原因
客观地说,在自然语言处理的各个层次中,每个层次语义的确定无不由语境所决定。然而,在整体性语义理解问题上,“语境”可以起到什么样的作用以及如何起作用,是一个尚待解决的问题。我们认为,在探索分解方法的过程中,最关键的是要厘清:在自然语言处理进入语义阶段之后,当代人工智能表征的分解方法是否依然合理有效。只有将这个问题搞清楚了,才能进一步对各个层次的语境问题进行深入分析,找到分解方法的瓶颈所在,进而探讨如何构建一个更为合理的解决模式。
其一,计算机的形式化体系决定了人工智能表征必然要以分解方法为基础。
人工智能所依托的计算机是一个纯粹的形式系统,建立在这一形式系统之上的计算机语言,从早期第一代机器语言到第二代汇编语言、第三代高级语言,直至目前的面向对象的语言,都必然以系统的形式化表征为主要特征。人工智能要想模拟人类智能,也必然以形式化的描述方式来处理语言、声音、图像等各种信息。在人工智能中,“形式化”意味着机器可读。各种信息必须首先以形式化的方式表征出来,才能被机器读取从而实现进一步的智能化处理。这就出现了一个非常关键的问题:以什么样的形式化方法来表征信息?
在这一问题上,乔姆斯基的三个语法模式理论,为自然语言处理的产生与发展做出了巨大贡献。一开始,乔姆斯基在图灵机基础上提出了“有限状态语法”,认为“有限状态语法是一种最简单的语法,它用一些有限的装置就可以产生无限多的句子”①。这是一种不受语境影响的语法规则。但由于这种语法模式只能处理特定类型且长度有限的句子,很快就不能适应自然语言处理的需要。接下来提出的“短语结构语法”基于对句子进行直接的结构分解,这成为自然语言处理中句子层次结构划分的重要理论基础。而后来的“转换生成语法”作为短语结构语法的替代物,“提供了一套进一步的转换规则,用于表明一切复杂的句子都是由简单的成分构成的。……转换规则表明,任何不同的语法形式都可以转换为某种给定的语法形式”②。形式计算系统的本质特征以及乔姆斯基三个语法模式理论的奠基性工作,直接确立了分解思想在人工智能表征方法中的指导地位。
其二,句子层次结构是分解方法在人工智能表征中的一个主要特征,也是造成分解方法瓶颈的重要原因。
从上述分析可以看出,分解方法是自然语言处理智能化发展过程中的必由之路。受乔姆斯基三个语法模式理论影响,对句子进行逐层分解成为自然语言形式处理的主要模式。
在人机交互系统中,早期自然语言处理在运用有限词汇与人会话时,分解方法表现出良好的适用性。然而,当把这类系统的处理范围拓展到充满不确定性的真实语境中时,就出现了很多难以克服的问题。其中,最关键的问题在于缺乏相应的常识知识来对句子的语义进行判断。因此,在自然语言处理的语形阶段发展相对成熟之后,就开始逐步向语义处理阶段迈进。
在这一发展过程中,对句子进行层次分解通常从句法分析入手。自然语言处理中最常见的是将句子分解为剖析树(parsetrees),其分析策略主要包括自顶向下、自底向上以及左角分析法等。其中,短语规则指出了从词到短语、从短语到句子的结合规律。也就是说,词可以看作句子中最小的语法成分,词与词之间通过一定的组成关系构成短语,各种类型的短语又可以根据特定的组合关系构成更大的短语成分,最后,各种短语按照句法语义构成规则组成完整的句子。
在上述分解过程中,要想完成对语义的正确理解,所涉及的每一步几乎都要涉及语义知识或语境知识。从技术层面来看,其主要的研究难点在于:
(1)在分词过程中,印欧语系的文字在书写上单词与单词之间有间隔,很容易实现对单词的自动识别。但对于像中文、日文、泰文等语言文字来说,在书写上没有单词之间的分界线。而句子剖析树的生成是以对单词的正确识别为基础的,这直接影响到智能系统对句法、语义、甚至语用的后续处理。如果分词发生错误,则不可能产生正确的语义理解,后续工作就没有任何意义。因此,分词是实现文本语义理解的第一步。在书写方式上没有单词分界线的语言中,分词对于计算机来说是一个非常困难的工作。因为在这类语言中,对于“词”的概念以及词的具体界定通常很难达成一致认识,普通人的语感与语言学标准之间常常有较大差异。并且,应用目的不同会造成对分词单位认识上的不同。①所以,很多分词系统往往从工程需要的角度出发制定相应的分词规范,从而解决信息处理用的“词”的划界问题。而自动分词系统很难将所有句子的单词都分割正确,句子中的某个字应该与前面的字组成词还是和后面的字组成词,往往需要根据整个句子中前后词语间的语义关系来确定。对于不具备人类认知能力的计算机来说,对这类语言进行分词常常会出现错误,通常都需要在自动分词的基础上耗费大量人工进一步校正。
(2)在分词基础上,需要通过词性标注才能进一步生成短语。词性标注难的根本原因在于词的兼类现象,即一个词具有多个词性。在一段文字中,一个词只能有一个意义,因而也只能有一个词性。想要对句子语义有一个正确的理解,就必须先正确判断每个词的词性。而在词性的确定过程中,一旦出现歧义现象,就需要引入相应的语义知识或语境知识。
(3)很多字词不止有一个义项,在自然语言处理中必须通过词义消歧从众多的义项中选出最为适合的一个。而词义消歧的选择过程也需要引入足够的语义知识或语境知识来协助判断。
(4)自然语言的语法通常模棱两可,对一个句子剖析可能会产生多棵剖析树。当一个句子可以分解为两个以上的剖析树时,这个句子就会产生句法歧义。而句法分析的主要目标就是消除句法歧义。此时,系统就必须根据相关的语义知识或语境知识,从中选出最为适合的一棵剖析树,从而达到消解歧义的目的。
上述分析只是自然语言处理句子结构时遇到的几个特点较为显著的问题。其实,在诸如语音分割、段落划分、主题划分等众多领域,都面临着同样的问题。以分解方法为基础的自然语言处理,要解决在每个层次中遇到的歧义问题,都需要更大范围的语义知识或语境知识。而分解方法在引入语义知识或语境知识的过程中,最大的弊病在于,这些协助语义判断的知识都是针对某个单词或短语引入的,在缺乏对句子整体意义甚至语篇语境理解的情况下,所引入的语义或语境知识所能发挥的作用非常有限。正如语境原则(textprinciple)所揭示的:“一个词只有在句子的语境中才有意义。”①而一个表达式也只有处于一个更大范围的语境中,才能确定其意义。因此,分解方法的本质特征决定了其很难突破自身的局限性,形成对句子或篇章的整体性认知。由此可以推断,缺乏整体性语义知识和语境知识的分解方法,在自然语言处理的语义阶段,很难实现较好的语义处理效果。
其三,三个平面的划界理论使分解方法难以逾越语义理解的障碍。
莫里斯对句法、语义、语用平面的划分在不同的语言领域都产生了极大影响。随着研究的深入,人们发现,三个平面在不同语言的语义理解中作用不同,存在句法优先、语义优先或者语用优先等不同的语法体系。然而,无论是在哪个平面优先的语法体系中,以分解为特征的句法处理都是自然语言处理的基础。这是由计算机的形式特性决定的。因此,在所有的自然语言处理系统中,对语言意义的剖析都从形式分析开始。
(1)语形平面划界的问题分析