模拟大脑语言感知过程的自然语言语句分析方法技术

技术编号:3047567 阅读:216 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种模拟大脑对自然语言语句感知过程的计算机分析方法,其特征在于该方法包括句类分析法及概念层次网络语言层面知识库。本发明专利技术对自然语言的处理是利用句类知识形成语句概念联想脉络的激活,在概念和语言层面进行各种歧义及模糊处理。知识库以句类知识的表达为中心,以概念层次网络符号体系表达语义。该方法简洁高效,并可以大大地减少对存储空间的要求。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种计算机自然语言处理方法,更具体地说,涉及一种模拟人脑对自然语言语句感知过程的计算机分析方法。自40年代计算机诞生起,就不断有人尝试使用计算机对人类惯常的自然语言进行分析和处理,以下是几种主要方法。乔姆斯基(N.Chomsky)在本世纪50年代提出了转换生成语法(Transformational Generative Grammar),形成了转换生成语法的句法分析方法。乔姆斯基在转换生成语法中提出语言中存在着深层结构,但他并没有解决深层结构如何表示以及深层结构有多少种、自然语言中的深层结构是有限还是无限的问题。因此尽管乔姆斯基的转换生成语法是基于语句生成十分严格的过程,但对于人类自然形成的极为复杂的语言现象,转换生成语法及其句法分析方法还没有具备足够的能力去处理自然语言问题。此外,由于深层结构并没有在处理过程中发挥作用,过强的生成能力也使转换生成语法的句法分析很不成功。随着研究的深入,逐步形成了一批便于计算机实现的自然语言处理的语法理论。主要包括以扩充转换(ATN)语法、系统功能语法和各种短语结构语法等为指导的句法分析方法。这些方法在计算机实现的方便性上比转换生成语法大大加强,但它们都放弃了追求对语言深层结构的分析,而自然语言的分析问题,不仅仅是一个语法的问题。因此,这些方法不能很好地解决计算机自然语言分析问题是显而易见的。短语结构语法的进一步发展,已经认识到需要多方面地利用自然语言中蕴含的知识才能获得较好的分析结果。近年来,以短语结构语法为基础,引入复杂特征集的知识表示方法和合一运算的算法,形成了词汇功能语法(Lexical Functional Grammar,简称LFG)、功能合一语法(FunctionalUnification Grammar,简称FUG)、广义短语结构语法(GeneralizedPhrase Structure Grammar,简称CPSG)和核驱动短语结构语法(Head-Driben Phrase Structure Grammar,简称GPSG)。这些方法有些涉及到语义深层分析,但由于缺乏整体的概念表述体系,同时它们也没有真正发现并使用自然语言的深层语义结构,仍然使用语法结构,将语义处理作为语法分析的补充。因而并不能彻底解决使用语法分析自然语言所遇到的问题。在语法处理方法占主导地位的同时,也出现了紧密依赖语义的分析处理方法。它们是菲尔摩(Fillmore)提出的格语法(Case Grammar)和杉克(Schank)提出的概念从属理论(Conceptual Dependency)。格语法虽然在探索和追求深层语义结构上作出了一定贡献,但它最终也没有形成一个完整的体系,对于诸如自然语言中有多少个格无法回答。甚至连自然语言中的格是有限的还是无限的,这样一个基本问题,也无法定论。而概念从属理论则在缺乏完整概念表述体系和深层语义结构等基础时,就深入到对自然语言中的常识和专业知识的理解,使得它犹如建立在沙滩上的大厦,无法真正承担自然语言处理的重任。以概念从属理论为基础的处理方法,一开始就陷入了知识的海洋而不能自拔。这导致了概念从属理论的处理方法面对无限的自然语言现象,总是处于一种需要加入知识的阶段,无法进入实用。目前计算机的应用几乎无所不在,软件产业将成为21世纪的主导产业,这标志着信息时代已经来临。面对信息和知识的主要载体--自然语言,计算机迫切需要具有处理自然语言语义知识的功能。因此首先要建立便于计算机操作的自然语言语句分析方法,使计算机能够较好地掌握自然语言的深层语义结构。本专利技术的目的是提供一种完整的、面向各种自然语言的、模拟人的大脑语言感知过程的计算机自然语言语句分析方法。一种,其特征在于该方法包括句类分析法和概念层次网络语言层面知识库,其中,句类分析法根据对自然语言语句的综合,归纳和演绎分成7个基本句类及57个子类,对每一个基本句类及其子类,以语义块物理表示式为语义单元,给出相应的语句物理表示式,这些表示式有标准、规范、违例和省略4种基本格式;每种基本格式又有相应的、数学上可穷尽列举的不同格式。概念层次网络语言层面知识库的表述步骤如下(1)知识库对词汇所属的句类,以句类代码形式给出;(2)对于词汇形成句子时,语义块的各种实际排列顺序以格式代码的形式表达;(3)给出词汇形成句子时语义块的构成知识和构成语义块各部分优先概念的知识;(4)给出词汇形成语义块时语义块的分离及变换知识;(5)给出词汇在构成句子时充当的语义角色知识;(6)给出词汇引发的语境知识;(7)给出词汇引发的句类转换知识;(8)给出词汇引发的某些语义块扩展为语句的知识。句类分析的具体处理步骤如下(1)对输入的句子,进行词库匹配,切分出句子中遇到的词,从知识库中取得这些词汇的语义知识;(2)根据概念类别信息的指示,以语义块区分指示符10类概念和动词v概念为依据,形成语义块雏形,形成E假设;(3)如果未能形成E假设,转向(9);否则,继续;(4)对全部E假设进行筛选和排队,主要利用的信息为句类代码,格式代码和词频及语境知识;(5)按照入选E假设的排序,依次进行句类检验;主要利用的信息为语义块核心的概念优选性知识;如果全部检验失败,转向(11);否则继续;(6)进行语义块构成检验;主要利用的信息为语义块构成知识和构成语义块各部分优先概念的知识;如果全部检验失败,转向(11);否则继续;(7)在必要时进行句类转换检验,主要利用的信息为词汇引发的句类转换知识;如果全部检验失败,转向(11);否则转向(12);(8)在必要时进行语义块分离检验,主要利用的信息为语义块分离及变换知识;如果全部失败则转(11),否则转向(10);(9)进行无E语义块句类检验;如果失败继续;否则转向(12);(10)重作E假设,成功转向(4),否则,转向(11);(11)人机交互;(12)搜集语境素材,处理结束。本专利技术是模拟人的大脑语言感知过程的计算机自然语言语句分析方法。人在感知自然语言的过程中,综合运用概念层面、语言层面和常识专业层面的知识;其中概念层面和语言层面的知识是人类进行感知处理的关键。概念层面的知识是与语种无关的,人类共用的处理自然语言的知识,语言层面知识是指那些在感知过程中与语种有关的知识。在概念层面,本专利技术以整个自然语言为对象,完整地划分了句类,给出了自然语言的句类表示式和格式变换表,建立了自然语言语句的深层语义结构。句类这个概念在传统语法中是指陈述句、祈使句、疑问句和感叹句,主要是句子的语用分类,而本专利技术的句类是指句子的语义类别。本专利技术将语句按语义划分成7个基本句类作用句、过程句、转移句、效应句、关系句、状态句和判断句。语义块是句子的语义构成单位,形式上可以是一个词、短语或句子。提出语义块概念是为了便于从语义层面描述句子。根据语义块与句类的依赖性强弱,将语义块分成主语义块和辅语义块。主语义块强依赖于句类,辅语义块弱依赖于句类。辅语义块分成7种条件、手段、工具、途径、参照、因、果。从共性特征可以将主语义块分成特征语义块,作用者,对象和内容。语义块的个性特征是它的句类属性。语义块的共性和个性两个侧面应视为语句二维空间的两个正交基底。因此,语义块的一般物理表示式为SK=“个性+共性”=“句类信息+语本文档来自技高网...

【技术保护点】
一种模拟大脑语言感知过程的自然语言语句的分析方法,其特征在于:该方法包括句类分析法和概念层次网络语言层面知识库,其中,句类分析法根据对自然语言语句的综合,归纳和演绎分成7个基本句类及57个子类,对每一个基本句类及其子类,以语义块物理表示式为语义单元,给出相应的语句物理表示式,这些表示式有标准、规范、违例和省略4种基本格式;每种基本格式又有相应的、数学上可穷尽列举的不同格式。

【技术特征摘要】
1.一种模拟大脑语言感知过程的自然语言语句的分析方法,其特征在于该方法包括句类分析法和概念层次网络语言层面知识库,其中,句类分析法根据对自然语言语句的综合,归纳和演绎分成7个基本句类及57个子类,对每一个基本句类及其子类,以语义块物理表示式为语义单元,给出相应的语句物理表示式,这些表示式有标准、规范、违例和省略4种基本格式;每种基本格式又有相应的、数学上可穷尽列举的不同格式。2.根据权利要求1所述的方法,其特征在于该概念层次网络语言层面知识库的表述步骤如下(1)知识库对词汇所属的句类,以句类代码形式给出;(2)对于词汇形成句子时,语义块的各种实际排列顺序以格式代码的形式表达;(3)给出词汇形成句子时语义块的构成知识和构成语义块各部分优先概念的知识;(4)给出词汇形成语义块时语义块的分离及变换知识;(5)给出词汇在构成句子时充当的语义角色知识;(6)给出词汇引发的语境知识;(7)给出词汇引发的句类转换知识;(8)给出词汇引发的某些语义块扩展为语句的知识。3.根据权利要求1、2所述的方法,其特征在于确定句类分析的具体处理步骤如下(1)对输入的句子,进行词库匹配...

【专利技术属性】
技术研发人员:黄曾旸张全刘志文晋耀红杜燕玲
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利