自然语言句群语义的表示与获取方法技术

技术编号:2876930 阅读:228 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种自然语言句群语义的表示与获取方法。其特征在于该方法包括符号表示的自然语言句群的语义,以及建立在对语句理解基础上的句群语义抽取方法。本发明专利技术将自然语言句群语义的表达分为3个部分,即领域、情景和背景,以便对句群的意义给出全方位的表达。同时,对这些项已采取符号化的方式表示。这些符号与语句理解分析结果使用的符号体系一致,因此,语义的获取可以直接建立在对语句理解分析的基础上。该方法可以分层次、简捷高效地获得和表示句群的语义,可以全面地表达句群的语义,便于计算机掌握和进行理解处理。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种计算机处理自然语言句群语义的方法,更具体地说,涉及一种符号化句群语义的表示方法和从语句分析结果中获取该表示的方法。
技术介绍
目前已经存在语句理解处理技术,例如文献中国专利技术专利《模拟大脑语言感知过程的自然语言语句分析方法》申请号98101921.8申请日期1998年5月18日。给出了一种模拟大脑语言感知过程的自然语言语句分析方法,已经可以较好地理解一个语句,即可以确定出一个句子地语义结构,消解语言中的模糊。但处理的结果中并没有指明这个句子所在句群的语义。这里需要说明的是,为了工程操作的方便,本专利技术认为句号(包括问号、感叹号,下同)是句群的标志符号,即句号标志着一个句群结束、新句群开始。根据这个定义,这里句群指的可以是多个句子,也可以是一个句子。获取句群的语义对于获取文章的主题要点,具有特别重要的意义,对于基于内容的文本检索显得更为紧迫。例如用户给出这样的文本检索要求检索各国的外事活动。这个句子使用中介绍的技术分析得到●句子的句类 ■XT19*21(一般作用句和针对性接收句的混合句类)●格式 ■!31(省略第一个语义块的)●语义块 ■作用者A(省略); ■特征语义块XT19*21检索; ■接收内容语义块各国的外事活动。但这不能形成检索的条件,也不能用这样的句子去直接进行检索,因为这里是用户提出的需求,而不是用户给出的要检索的文章的标题。因此,只有获取了用户输入需求的句群语义,并转化形成检索的条件,同时获取了文章的句群语义,才可能较准确的检索得到用户所需的文章。当然文章的标题往往蕴含着文章的主旨,对于新闻,更是如此。因此检索处理可以从标题入手。提取标题句群的语义进行处理,可以得到较理想的预期结果。以下介绍在句群语义方面的研究。直接涉及句群语义的研究,非常罕有。语言学,尤其是其分支学科——修辞学中,提出了“语境”概念。所谓语境,即语言或言语环境。这个概念的提出,是为了能够弄清人之所以能够通过语句达意原因,希望将超出一个语句字面的、有助于理解的语句的信息搞清楚。所以,在这个意义上可以认为关于语境的研究与这里的句群语义有着很大程度的相似。但需要说明的是,一般意义上的语境外延比这里的“句群语义”大。在语境方面,语言学工作者已经作了大量的的研究,已经从初始阶段单纯的修辞学研究渗透到语言学的多个分支学科,包括社会语言学、语用学、语义学和修辞学等。上世纪80年代,有的语言学工作者甚至提出要建立独立的语境学。近几十年来,语境问题一直是语言学家所探索的重要问题之一,已进行了广泛的研究,下面是不同研究对语境的不同认识如文献西槙 光正 编语境研究论文集 北京语言学院出版社1991北京。和冯广艺 汉语语境学概论 宁夏人民出版社1998银川所介绍的1、“题旨情境”说。陈望道和一些修辞学家是其代表。将语境分解为“题旨”和“情境”两大部分。前者为作品内的环境,如主题思想、作者的主观意愿等;后者为作品外的东西,即马林诺夫斯基、弗斯等人说的“情境的上下文”。2、“广义狭义”说。我国大多数语言学家持这种观点。将语境分成两大块,即广义狭义语境。广义,即社会环境等方面的因素;狭义,为作品内的上下文或前后语。3、“一切因素”说。以赵德珠先生为代表,把影响语言符合具体意义取定的一切因素都说成语境。4、“主观客观”说。以王德春先生为代表,认为语言的使用是由两大方面,即主观和客观因素所制约的,语境实际上包括这两个方面的内容。5、“大小语境”说。以王建平先生为代表,除了同意其他学者关于语境的界定外,还认为应当将非自然语言表示式统括到语境中。6、“文化情境”说。持这种观点的多为社会语言学家,强调“情境的上下文”,即与社会环境相关的客观语境,因此多联系社会、文化、时代、地域等方面探讨客观语境对语言的影响。7、“语境创造”说。以刘云泉先生为代表,主张通过言语表达者和言语接受者来共同创造语境,达到语言表达效果,必要时可以通过语境来补充交际内容,增强可理解性。8、“模拟语境”说。以林兴仁先生为代表,针对广播语体提出这一理论,主张广播语体可以“模拟人际的交谈,使说话者和听方处于一个虚设的交谈环境中”。以上几种有代表性的观点,包括了至今除本专利技术外的人们对语境含义的基本认识,可以看出时至今日,到底什么是语境?语境的构成因素?语境如何划分等问题一直没有一个明确统一的认识,众说纷纭,莫衷一是。对于语境如何形式化表达和从文本中抽取、服务于自然语言理解处理,更是无从涉及。由于上述研究很难应用于具体的自然语言处理系统中。同时语境的概念也过于宽泛,因此,在自然语言处理实践中,许多研究将凡涉及上下文的处理都归为语境,而不区分是在句子内部还是在句子之间。如文献陶建华蔡莲红神经网络与汉语TTS韵律模型《计算机世界》2001年6月1日,文中将文本处理称为语境分析,并使用人工神经元网络实现了从文本中提取语境,进而转化成韵律以帮助计算机完成文语转换。综上,可以看到,目前的语境研究还无法确定对于句群语义的表达,无法满足自然语言理解处理的需要。然而,以文本检索为例,自然语言理解处理中文本语义的表达和获取已显得非常迫切了。本专利技术的目的在于克服目前的语境研究还无法确定对于句群语义的表达,无法满足自然语言理解处理的需要;从而提供一种。本专利技术的目的是这样实现的一种基于语境理解的、自然语言句群语义表示和抽取方法,其特征在于该方法包括句群语义的表示和抽取方法;其中,句群语义的表示方法包括以事件的表述为中心,划分三个层次来表示句群语义,即事件的静态范畴信息表示,事件的动态表述(包括事件中的对象和对象的表现),事件发生的条件环境等辅助信息表示等。句群语义的抽取方法,则是根据前述三个层次的划分,在语句理解的基础上,取得相应信息,填充到表示框架中,形成句群语义。句群语义的表述方法如下(1)将句群语义划分为三个层次,事件的静态范畴信息表示,事件的动态表述(包括事件中的对象和对象的表现),事件发生的条件环境等辅助信息表示等,分别命名为领域、情景和背景;(2)用概念层次网络概念基元节点,符号化地表示句群的领域信息和信息来源;(3)以句类分析结果的形式表示句群的情景信息,即给出句类信息和主语义块的信息;(4)用辅语义块的形式给出背景信息,包括认识、手段、条件和工具。背景信息的分类基于概念层次网络的综合类概念(s)节点和语句中的辅语义块。进行句群语义信息抽取的具体步骤如下(1)确定句群语义框架中的领域信息;(2)根据领域信息对应的句类,从句类分析结果中获取句群语义框架中的情景信息;(3)综合句类分析结果中的辅语义块和句中出现的综合类概念形成句群语义框架中的背景信息。由上可知,进行句群语义信息抽取时,需要有两个条件(1)具有领域信息的词语,使用概念层次网络的语义概念基元表示时,它的领域信息应当完整的给出来;(2)句群语义的抽取是在句类分析的基础上完成的。因此待抽取的句群,首先要进行句类分析。下面具体说明句群语义的抽取过程(1)根据语句分析的结果,检查语句的整句(全局)的特征语义块中是否含有领域信息。如果有,则转向(8);否则,继续。(2)检查语句中句蜕块(即整句中的子句,充当整句的语义块)的特征语义块是否含有领域信息。如果有,则转向(8);否则,继续。(3)在内容语义块中查找领域信息本文档来自技高网...

【技术保护点】
一种自然语言句群语义的表示与获取方法,其特征在于:该方法包括句群语义的表示和获取方法;其中,句群语义的表示方法包括:以事件的表述为中心,划分三个层次来表示句群语义,即事件的静态范畴信息表示,事件的动态表述(包括事件中的对象和对象的表现),事件发生的条件环境等辅助信息表示等。句群语义的抽取方法,则是根据前述三个层次的划分,在语句理解的基础上,取得相应信息,填充到表示框架中,形成句群语义。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄曾旸张全晋耀红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1