自然语言语义理解方法及系统技术方案

技术编号:14061260 阅读:213 留言:0更新日期:2016-11-27 18:11
本发明专利技术公开了一种自然语言语义理解方法及系统,该方法包括:获取待解析文本;对所述待解析文本进行分词及词性标注;基于上下文相关信息对分词后的文本进行句法分析,得到所述待处理文本中每句话的自然词依存句法树;根据所述自然词依存句法树及预先构建的本体知识库,构建语义树;利用所述语义树获取语义理解结果。利用本发明专利技术,可以提高自然语言语义理解的正确性及灵活性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,具体涉及一种自然语言语义理解方法及系统
技术介绍
随着互联网技术的快速发展,人们越来越迫切的希望可以自由地与机器进行交流。自然语言理解作为实现人机交流的主要环节,目前已经成为研究人员的研究热点。近年来,本体知识库由于具有良好的语义概念层次,很容易找出资源之间的隐含联系,将资源有效地组织起来而被广泛应用于自然语言理解领域中。现有的基于本体的自然语言语义理解方法主要是从自然语言文本中抽取自然词,然后将自然词映射成本体词,得到本体知识库中对应三元组,将所述三元组信息进行组合来得到语义理解结果,这种方法一般只能处理较简单的文本,当待解析文本句式较复杂时,语义理解容易出错,得不到正确的语义理解结果。因此,如何利用本体知识库灵活准确地进行自然语言语义理解成为研究人员亟待解决的问题。
技术实现思路
本专利技术实施例提供一种自然语言语义理解方法及系统,以提高语义理解的正确性及灵活性。为此,本专利技术实施例提供如下技术方案:一种自然语言语义理解方法,包括:获取待解析文本;对所述待解析文本进行分词及词性标注;基于上下文相关信息对分词后的文本进行句法分析,得到所述待处理文本中每句话的自然词依存句法树;根据所述自然词依存句法树及预先构建的本体知识库,构建语义树;利用所述语义树获取语义理解结果。优选地,所述对分词后的文本进行句法分析,得到所述待处理文本中每句话的自然词依存句法树包括:采用最大生成树算法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的自然词依存句法树。优选地,所述根据所述自然词依存句法树及预先构建的本体知识库,构建语义树包括:根据预先构建的自然词到本体词的语义词表将所述自然词依存句法树映射为本体词依存句法树;确定所述本体词依存句法树中的节点和边与所述本体知识库中语义的对应关系;根据所述对应关系将所述本体词依存句法树转换为语义树。优选地,所述根据所述对应关系将所述本体词依存句法树转换为语义树包括:依据以下规则将所述本体词依存句法树转换为语义树:当所述本体词依存句法树中的类别节点、实例节点或属性值节点之间直接相连时,根据所述本体知识库获取相连接的两节点之间的语义关系,并将所述语义关系放到连接所述两节点的边上;当所述本体词依存句法树中的类别节点、实例节点或属性值节点之间通过关系节点或属性节点间接相连时,新生成一条边将所述类别节点、实例节点或属性值节点直接相连,并将关系节点或属性节点的语义放到新生成的边上。优选地,所述利用所述语义树获取语义理解结果包括:采用后序遍历的方式自底向上对所述语义树进行遍历,得到所述语义树上的每个节点;将所述语义树上的每条边及该边连接的两个节点作为一个分句,根据节点顺序进行语义组合,得到所有分句组合后的语句作为语义理解结果。一种自然语言语义理解系统,包括:接收模块,用于获取待解析文本;预处理模块,用于对所述待解析文本进行分词及词性标注;句法分析模块,用于基于上下文相关信息对分词后的文本进行句法分析,得到所述待处理文本中每句话的自然词依存句法树;语义树构建模块,用于根据所述自然词依存句法树及预先构建的本体知识库,构建语义树;语义分析模块,用于利用所述语义树获取语义理解结果。优选地,所述句法分析模块,具体用于采用最大生成树算法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的自然词依存句法树。优选地,所述语义树构建模块包括:映射单元,用于根据预先构建的自然词到本体词的语义词表将所述自然词依存句法树映射为本体词依存句法树;对应关系确定单元,用于确定所述本体词依存句法树中的节点和边与所述本体知识库中语义的对应关系;转换单元,用于根据所述对应关系将所述本体词依存句法树转换为语义树。优选地,所述转换单元依据以下规则将所述本体词依存句法树转换为语义树:当所述本体词依存句法树中的类别节点、实例节点或属性值节点之间直接相连时,根据所述本体知识库获取相连接的两节点之间的语义关系,并将所述语义关系放到连接所述两节点的边上;当所述本体词依存句法树中的类别节点、实例节点或属性值节点之间通过关系节点或属性节点间接相连时,新生成一条边将所述类别节点、实例节点或属性值节点直接相连,并将关系了点或属性节点的语义放到新生成的边上。优选地,所述语义分析模块包括:遍历单元,用于采用后序遍历的方式自底向上对所述语义树进行遍历,得到所述语义树上的每个节点;组合单元,用于将所述语义树上的每条边及该边连接的两个节点作为一个分句,根据节点顺序进行语义组合,得到所有分句组合后的语句作为语义理解结果。本专利技术实施例提供的自然语言语义理解方法及系统,通过结合本体知识库
及自然词依存句法树构建语义树的方式进行自然语言语义理解,不仅尽可能地保留了自然语言文本的语义信息,而且可以充分体现各本体三元组之间的相互关系,因此大大提高了语义理解的准确度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本专利技术实施例自然语言语义理解方法的流程图;图2是本专利技术实施例中自然词依存句法树示例;图3是本专利技术实施例中本体词依存句法树示例;图4是本专利技术实施例中语义树示例;图5是本专利技术实施例自然语言语义理解系统的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术实施例的方案,下面结合附图和实施方式对本专利技术实施例作进一步的详细说明。如图1所示,是本专利技术实施例自然语言语义理解方法的流程图,包括以下步骤:步骤101,获取待解析文本。步骤102,对所述待解析文本进行分词及词性标注。具体可以采用基于条件随机场的方法对所述待处理文本进行分词及词性标注。当然,也可采用其它方法进行分词及词性标注,如分词可以用最长词匹配,词性标注可以用基于HMM(Hidden Markov Model,隐马尔可夫模型)的方法等。比如,对“笑傲江湖的片尾曲好听的爱我是谁唱的”文本的分词结果为:笑傲江湖/n的/u片尾曲/n好听/a的/u爱我/n是/v谁/r唱/v的/u其中,分词结果中的字母表示词性,/v表示动词、/r表示代词、/n表示名
词、/u表示助词、/a表示形容词。步骤103,基于上下文相关信息对分词后的文本进行句法分析,得到所述待处理文本中每句话的自然词依存句法树,所述自然词依存句法树中,节点表示待解析文本分词后得到的自然语言词语,即自然词,边表示连接的两个节点表示的自然词在待解析文本中的依存关系。比如,可以采用最大生成树算法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的自然词依存句法树。如图2所示,是对文本“笑傲江湖的片尾曲好听的爱我是谁唱的”进行句法分析后得到的自然词依存句法树。其中,ROOT节点为虚节点,也可看作依存句法树根节点的依存关系,为了方便计算,ROOT节点不表示任何分词结果。边上的字母缩写为依存关系,其含义如下表1所示:表1:依存关系核心词语HED定语中心语关系ATT主谓关系SBV动宾关系VOB同位语关系APP“的”字结构DE步骤104,根据所述自然词依存句法树及预先构建的本体知识本文档来自技高网
...
自然语言语义理解方法及系统

【技术保护点】
一种自然语言语义理解方法,其特征在于,包括:获取待解析文本;对所述待解析文本进行分词及词性标注;基于上下文相关信息对分词后的文本进行句法分析,得到所述待处理文本中每句话的自然词依存句法树;根据所述自然词依存句法树及预先构建的本体知识库,构建语义树;利用所述语义树获取语义理解结果。

【技术特征摘要】
1.一种自然语言语义理解方法,其特征在于,包括:获取待解析文本;对所述待解析文本进行分词及词性标注;基于上下文相关信息对分词后的文本进行句法分析,得到所述待处理文本中每句话的自然词依存句法树;根据所述自然词依存句法树及预先构建的本体知识库,构建语义树;利用所述语义树获取语义理解结果。2.根据权利要求1所述的方法,其特征在于,所述对分词后的文本进行句法分析,得到所述待处理文本中每句话的自然词依存句法树包括:采用最大生成树算法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的自然词依存句法树。3.根据权利要求1所述的方法,其特征在于,所述根据所述自然词依存句法树及预先构建的本体知识库,构建语义树包括:根据预先构建的自然词到本体词的语义词表将所述自然词依存句法树映射为本体词依存句法树;确定所述本体词依存句法树中的节点和边与所述本体知识库中语义的对应关系;根据所述对应关系将所述本体词依存句法树转换为语义树。4.根据权利要求3所述的方法,其特征在于,所述根据所述对应关系将所述本体词依存句法树转换为语义树包括:依据以下规则将所述本体词依存句法树转换为语义树:当所述本体词依存句法树中的类别节点、实例节点或属性值节点之间直接相连时,根据所述本体知识库获取相连接的两节点之间的语义关系,并将所述语义关系放到连接所述两节点的边上;当所述本体词依存句法树中的类别节点、实例节点或属性值节点之间通过关系节点或属性节点间接相连时,新生成一条边将所述类别节点、实例节点或属性值节点直接相连,并将关系节点或属性节点的语义放到新生成的边上。5.根据权利要求1至4任一项所述的方法,其特征在于,所述利用所述语义树获取语义理解结果包括:采用后序遍历的方式自底向上对所述语义树进行遍历,得到所述语义树上的每个节点;将所述语义树上的每条边及该边连接的两个节点作为一个分句,根据节点顺序进行语义组合,得到所有分句组合后的语句作为语义理解结果。6.一...

【专利技术属性】
技术研发人员:吴及贺志阳胡国平吕萍王影胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司清华大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1