文本语义理解方法及系统技术方案

技术编号:14061252 阅读:86 留言:0更新日期:2016-11-27 18:09
本发明专利技术公开了一种文本语义理解方法及系统,该方法包括:预先构建基于主网-子网模式的有向图文法网络,所述有向图文法网络包括一个主网络、以及一个或多个子网络,所述有向图文法网络的每段路径对应一个文本字符或一个子网络标识符;获取待解析文本;基于所述有向图文法网络对所述文本进行解码,得到解码路径;获取所述解码路径的相关语义作为语义理解结果。本发明专利技术可以有效地降低有向图文法网络的复杂度,提高解码效率,降低内存消耗。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,具体涉及一种文本语义理解方法及系统
技术介绍
作为人工智能领域中最重要方向之一的自然语言理解技术,一直是相关领域研究人员研究的热点。特别是近年来,随着移动互联网技术的迅速发展,信息化程度日益提高,网络上的信息也随之呈指数级剧增,人类进入了大数据时代。人们越发渴望能让机器理解自然语言,从而从海量的数据中高效地分析和获取有价值的信息。传统的语义理解系统主要是利用文法定义出若干种句子输入集合,当输入的文本在这些集合之中,则理解成功。近年来针对文本深层次的语义挖掘的需求,研究人员提出了基于文法规则的文本语义理解的方案。该方案中首先明确各具体应用环境下的应用句文法规则,用以描述各具体应用下的自然语言句法输入;随后对该句文法规则进行高效编译得到计算机可理解的有向图文法网络;最后对接收到的自然语言输入和有向图文法网络进行匹配解析,根据最优匹配路径抽取相关语义,实现对输入的句子短语的深层语义理解。然而,对于海量数据,采用传统的基于文法规则的语义理解系统需要定义成千上万种文法,其根据文法规则构建的有向图文法网络结构相当庞大、复杂。此外,传统系统中有向图文法网络的解码是一个广度搜索的过程,因而在用户文本与文法网络进行匹配解析时,计算量大、耗时多,造成整个语义理解的效率大大下降,且其解码过程中硬件资源消耗大。
技术实现思路
本专利技术实施例提供一种文本语义理解方法及系统,以解决现有技术解码效率低,解码过程中硬件资源消耗大的问题。为此,本专利技术实施例提供如下技术方案:一种文本语义理解方法,包括:预先构建基于主网-子网模式的有向图文法网络,所述有向图文法网络包括一个主网络、以及一个或多个子网络,所述有向图文法网络的每段路径对应一个文本字符或一个子网络标识符;获取待解析文本;基于所述有向图文法网络对所述文本进行解码,得到解码路径;获取所述解码路径的相关语义作为语义理解结果。优选地,所述构建基于主网-子网模式的有向图文法网络包括:根据各应用下自然语言输入的句法特性建立句文法规则;确定主网络和子网络各自对应的文本类型;根据主网络和子网络各自对应的文本类型,对所述句文法规则进行编译生成带子网络标识符的主网有向图文法网络、以及子网有向图文法网络。优选地,所述基于所述有向图文法网络对所述文本进行解码,得到解码路径包括:对待解析文本,从主网络的首节点进行字串匹配;如果主网络的匹配路径中出现子网络标识符,则记录主网络匹配信息,并调用所述子网络标识符对应的子网络进行字串匹配,得到并记录子网络匹配信息;在待解析文本全部匹配完成后,根据得到的主网络匹配信息和子网络匹配信息,得到解码路径。优选地,所述基于所述有向图文法网络对所述文本进行解码,得到解码路径还包括:在调用所述子网络标识符对应的子网络进行字串匹配时,判断所述子网络是否为首次调用;如果是,则利用所述子网络进行字串匹配,并将获得的子网络匹配信息保存到子网匹配结果管理器中;否则,从所述子网匹配管理器中获取历史匹配结果作为子网络匹配信息。优选地,所述子网络匹配信息包括:子网络匹配路径、子网络搜索标志、
已匹配字串的字数;所述主网络匹配信息包括:主网络匹配路径、调用的子网络的子网络标识符、已匹配字串的字数;所述判断所述子网络是否为首次调用包括:如果所述子网络搜索标志表示未搜索,则确定所述子网络为首次调用;如果所述子网络搜索标志表示已搜索,并且所述主网络匹配信息和子网络匹配信息中的已匹配字串的字数相同,则确定所述子网络为非首次调用。优选地,所述利用所述子网络进行字串匹配包括:利用所述子网络进行字串匹配时,采用容错机制进行字串匹配,所述容错机制包括以下一种或多种字串匹配方式:自跳、连跳、错字容错。优选地,所述子网络有一层或多层。一种文本语义理解系统,包括:网络构建模块,用于预先构建基于主网-子网模式的有向图文法网络,所述有向图文法网络包括一个主网络、以及一个或多个子网络,所述有向图文法网络的每段路径对应一个文本字符或一个子网络标识符;接收模块,用于获取待解析文本;解码模块,用于基于所述有向图文法网络对所述文本进行解码,得到解码路径;结果获取模块,用于获取所述解码路径的相关语义作为语义理解结果。优选地,所述网络构建模块包括:规则设置单元,用于根据各应用下自然语言输入的句法特性建立句文法规则;文本划分单元,用于确定主网络和子网络各自对应的文本类型;编译单元,用于根据主网络和子网络各自对应的文本类型,对所述句文法规则进行编译生成带子网络标识符的主网有向图文法网络、以及子网有向图文法网络。优选地,所述解码模块包括:匹配单元,用于对待解析文本,从主网络的首节点进行字串匹配;并且在主网络的匹配路径中出现子网络标识符时,记录主网络匹配信息,并调用所述子网络标识符对应的子网络进行字串匹配,得到并记录子网络匹配信息;解码路径获取单元,用于在所述匹配单元对待解析文本全部匹配完成后,根据所述匹配单元得到的主网络匹配信息和子网络匹配信息,得到解码路径。优选地,所述解码模块还包括:判断单元,用于在所述匹配单元调用所述子网络标识符对应的子网络进行字串匹配时,判断所述子网络是否为首次调用,并将判断结果反馈给所述匹配单元;所述匹配单元在所述判断单元判断所述子网络是首次调用时,利用所述子网络进行字串匹配,并将获得的子网络匹配信息保存到子网匹配结果管理器中,在所述判断单元判断所述子网络是非首次调用时,从所述子网匹配管理器中获取历史匹配结果作为子网络匹配信息。优选地,所述子网络匹配信息包括:子网络匹配路径、子网络搜索标志、已匹配字串的字数;所述主网络匹配信息包括:主网络匹配路径、调用的子网络的子网络标识符、已匹配字串的字数;所述判断单元,具体用于在所述子网络搜索标志表示未搜索时,确定所述子网络为首次调用,在所述子网络搜索标志表示已搜索,并且所述主网络匹配信息和子网络匹配信息中的已匹配字串的字数相同时,确定所述子网络为非首次调用。优选地,所述匹配单元利用所述子网络进行字串匹配时,采用容错机制进行字串匹配,所述容错机制包括以下一种或多种字串匹配方式:自跳、连跳、错字容错。所述子网络有一层或多层。不同于传统的基于文法规则构建的一个庞大复杂的有向图文法网络,本专利技术实施例文本语义理解方法将有向图文法网络分为主网络和子网络,有效地降低了有向图文法网络的复杂度,提高了解码效率。而且,在对用户输入的待解析文本进行解码时,采用深度优先搜索方法对待解析文本进行文法网络匹配解析,降低了内存消耗。进一步地,对子网络设置保存机制,对于同一次用户输入文本的解码保存首次调用子网络的匹配信息,在后续解码重复调用该子网络时,直接使用保存管理机制中保存的匹配结果,减少了子网络的匹配次数,进一步提高了解码效
率。进一步地,通过容错机制,提高了系统的容错能力。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本专利技术实施例文本语义理解方法的流程图;图2是本专利技术实施例中基于主网-子网模式的有向图文法网络示例一;图3是本专利技术实施例中基于主网-子网本文档来自技高网
...
文本语义理解方法及系统

【技术保护点】
一种文本语义理解方法,其特征在于,包括:预先构建基于主网‑子网模式的有向图文法网络,所述有向图文法网络包括一个主网络、以及一个或多个子网络,所述有向图文法网络的每段路径对应一个文本字符或一个子网络标识符;获取待解析文本;基于所述有向图文法网络对所述文本进行解码,得到解码路径;获取所述解码路径的相关语义作为语义理解结果。

【技术特征摘要】
1.一种文本语义理解方法,其特征在于,包括:预先构建基于主网-子网模式的有向图文法网络,所述有向图文法网络包括一个主网络、以及一个或多个子网络,所述有向图文法网络的每段路径对应一个文本字符或一个子网络标识符;获取待解析文本;基于所述有向图文法网络对所述文本进行解码,得到解码路径;获取所述解码路径的相关语义作为语义理解结果。2.根据权利要求1所述的方法,其特征在于,所述构建基于主网-子网模式的有向图文法网络包括:根据各应用下自然语言输入的句法特性建立句文法规则;确定主网络和子网络各自对应的文本类型;根据主网络和子网络各自对应的文本类型,对所述句文法规则进行编译生成带子网络标识符的主网有向图文法网络、以及子网有向图文法网络。3.根据权利要求1所述的方法,其特征在于,所述基于所述有向图文法网络对所述文本进行解码,得到解码路径包括:对待解析文本,从主网络的首节点进行字串匹配;如果主网络的匹配路径中出现子网络标识符,则记录主网络匹配信息,并调用所述子网络标识符对应的子网络进行字串匹配,得到并记录子网络匹配信息;在待解析文本全部匹配完成后,根据得到的主网络匹配信息和子网络匹配信息,得到解码路径。4.根据权利要求3所述的方法,其特征在于,所述基于所述有向图文法网络对所述文本进行解码,得到解码路径还包括:在调用所述子网络标识符对应的子网络进行字串匹配时,判断所述子网络是否为首次调用;如果是,则利用所述子网络进行字串匹配,并将获得的子网络匹配信息保存到子网匹配结果管理器中;否则,从所述子网匹配管理器中获取历史匹配结果作为子网络匹配信息。5.根据权利要求4所述的方法,其特征在于,所述子网络匹配信息包括:
\t子网络匹配路径、子网络搜索标志、已匹配字串的字数;所述主网络匹配信息包括:主网络匹配路径、调用的子网络的子网络标识符、已匹配字串的字数;所述判断所述子网络是否为首次调用包括:如果所述子网络搜索标志表示未搜索,则确定所述子网络为首次调用;如果所述子网络搜索标志表示已搜索,并且所述主网络匹配信息和子网络匹配信息中的已匹配字串的字数相同,则确定所述子网络为非首次调用。6.根据权利要求3所述的方法,其特征在于,所述利用所述子网络进行字串匹配包括:利用所述子网络进行字串匹配时,采用容错机制进行字串匹配,所述容错机制包括以下一种或多种字串匹配方式:自跳、连跳、错字容错。7.根据权利要求1至6任一项所述的方法,其特征在于,所述子网络有一层或多层。8.一种文本语义理解系统,其特征在于,包括:网络构建模块,用于预先构建基于主网-子网模...

【专利技术属性】
技术研发人员:吴维昊杨溥潘青华王影胡国平胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1