文本语义理解方法及系统技术方案

技术编号：14061252 阅读：86 留言：0更新日期：2016-11-27 18:09

本发明专利技术公开了一种文本语义理解方法及系统，该方法包括：预先构建基于主网-子网模式的有向图文法网络，所述有向图文法网络包括一个主网络、以及一个或多个子网络，所述有向图文法网络的每段路径对应一个文本字符或一个子网络标识符；获取待解析文本；基于所述有向图文法网络对所述文本进行解码，得到解码路径；获取所述解码路径的相关语义作为语义理解结果。本发明专利技术可以有效地降低有向图文法网络的复杂度，提高解码效率，降低内存消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理
，具体涉及一种文本语义理解方法及系统。
技术介绍
作为人工智能领域中最重要方向之一的自然语言理解技术，一直是相关领域研究人员研究的热点。特别是近年来，随着移动互联网技术的迅速发展，信息化程度日益提高，网络上的信息也随之呈指数级剧增，人类进入了大数据时代。人们越发渴望能让机器理解自然语言，从而从海量的数据中高效地分析和获取有价值的信息。传统的语义理解系统主要是利用文法定义出若干种句子输入集合，当输入的文本在这些集合之中，则理解成功。近年来针对文本深层次的语义挖掘的需求，研究人员提出了基于文法规则的文本语义理解的方案。该方案中首先明确各具体应用环境下的应用句文法规则，用以描述各具体应用下的自然语言句法输入；随后对该句文法规则进行高效编译得到计算机可理解的有向图文法网络；最后对接收到的自然语言输入和有向图文法网络进行匹配解析，根据最优匹配路径抽取相关语义，实现对输入的句子短语的深层语义理解。然而，对于海量数据，采用传统的基于文法规则的语义理解系统需要定义成千上万种文法，其根据文法规则构建的有向图文法网络结构相当庞大、复杂。此外，传统系统中有向图文法网络的解码是一个广度搜索的过程，因而在用户文本与文法网络进行匹配解析时，计算量大、耗时多，造成整个语义理解的效率大大下降，且其解码过程中硬件资源消耗大。
技术实现思路
本专利技术实施例提供一种文本语义理解方法及系统，以解决现有技术解码效率低，解码过程中硬件资源消耗大的问题。为此，本专利技术实施例提供如下技术方案：一种文本语义理解方法，包括：预先构建基于主网-子网模式的有向图文法网络，所述...

【技术保护点】
一种文本语义理解方法，其特征在于，包括：预先构建基于主网‑子网模式的有向图文法网络，所述有向图文法网络包括一个主网络、以及一个或多个子网络，所述有向图文法网络的每段路径对应一个文本字符或一个子网络标识符；获取待解析文本；基于所述有向图文法网络对所述文本进行解码，得到解码路径；获取所述解码路径的相关语义作为语义理解结果。

【技术特征摘要】
1.一种文本语义理解方法，其特征在于，包括：预先构建基于主网-子网模式的有向图文法网络，所述有向图文法网络包括一个主网络、以及一个或多个子网络，所述有向图文法网络的每段路径对应一个文本字符或一个子网络标识符；获取待解析文本；基于所述有向图文法网络对所述文本进行解码，得到解码路径；获取所述解码路径的相关语义作为语义理解结果。2.根据权利要求1所述的方法，其特征在于，所述构建基于主网-子网模式的有向图文法网络包括：根据各应用下自然语言输入的句法特性建立句文法规则；确定主网络和子网络各自对应的文本类型；根据主网络和子网络各自对应的文本类型，对所述句文法规则进行编译生成带子网络标识符的主网有向图文法网络、以及子网有向图文法网络。3.根据权利要求1所述的方法，其特征在于，所述基于所述有向图文法网络对所述文本进行解码，得到解码路径包括：对待解析文本，从主网络的首节点进行字串匹配；如果主网络的匹配路径中出现子网络标识符，则记录主网络匹配信息，并调用所述子网络标识符对应的子网络进行字串匹配，得到并记录子网络匹配信息；在待解析文本全部匹配完成后，根据得到的主网络匹配信息和子网络匹配信息，得到解码路径。4.根据权利要求3所述的方法，其特征在于，所述基于所述有向图文法网络对所述文本进行解码，得到解码路径还包括：在调用所述子网络标识符对应的子网络进行字串匹配时，判断所述子网络是否为首次调用；如果是，则利用所述子网络进行字串匹配，并将获得的子网络匹配信息保存到子网匹配结果管理器中；否则，从所述子网匹配管理器中获取历史匹配结果作为子网络匹配信息。5.根据权利要求4所述的方法，其特征在于，所述子网络匹配信息包括：
\t子网络匹配路径、子网络搜索标志、已匹配字串的字数；所述主网络匹配信息包括：主网络匹配路径、调用的子网络的子网络标识符、已匹配字串的字数；所述判断所述子网络是否为首次调用包括：如果所述子网络搜索标志表示未搜索，则确定所述子网络为首次调用；如果所述子网络搜索标志表示已搜索，并且所述主网络匹配信息和子网络匹配信息中的已匹配字串的字数相同，则确定所述子网络为非首次调用。6.根据权利要求3所述的方法，其特征在于，所述利用所述子网络进行字串匹配包括：利用所述子网络进行字串匹配时，采用容错机制进行字串匹配，所述容错机制包括以下一种或多种字串匹配方式：自跳、连跳、错字容错。7.根据权利要求1至6任一项所述的方法，其特征在于，所述子网络有一层或多层。8.一种文本语义理解系统，其特征在于，包括：网络构建模块，用于预先构建基于主网-子网模...

【专利技术属性】
技术研发人员：吴维昊，杨溥，潘青华，王影，胡国平，胡郁，刘庆峰，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人