一种基于问句框架的问答意图知识库构建系统及方法技术方案

技术编号:28060875 阅读:45 留言:0更新日期:2021-04-14 13:38
本发明专利技术提供了一种基于问句框架的问答意图知识库构建系统及方法。包括:数据层,包括问句语料库、框架要素字典和问答意图知识库;用于存储文件、读写文件和修改文件;处理层,包括框架要素处理模块和问答句改写模块,用于改写问句;应用层,包括问句分析模块,用于输出改写问句所形成的候选目标词串。该基于问句框架的问答意图知识库构建系统及方法改善了现有技术中识别框架要素困难且无法自动得到问句解析的答句形式的问题。析的答句形式的问题。析的答句形式的问题。

【技术实现步骤摘要】
一种基于问句框架的问答意图知识库构建系统及方法


[0001]本专利技术涉及构建问答意图知识库
,尤其是涉及一种基于问句框架的问答意图知识库构建系统及方法。

技术介绍

[0002]句子意图(句子框架)就是句子的在现实物质世界的所指即语义,语义有很多种,一般采用框架语义学(FrameNet)的方法,根据所处的场景决定框架的名称和框架要素,根据句子中的谓语或者动词定义框架的目标词。这种以谓语或者动词这个句子的一部分来定义整个句子的目标词并决定框架要素,在实际中出现以下问题:
[0003](1)实体歧义无法消除,无法识别框架要素
[0004]比如“毛坝3井深是多少”,这里的“毛坝3“和“毛坝3井”都是2个真实存在的但完全不同类型的实体,那么问句中的实体到底是“毛坝3井深”还是“毛坝3井深”呢?这个歧义问题在词层面无法解决,只有在更高的句子层面通过知识库才能把提问者的真实意图和要素校正出来。
[0005](2)无动词句子无法识别框架
[0006]英文是一种以动词为主的语言,因此以动词为主来识别框架和框架要素是成功的,但是很明确,但是在问句意图(框架)识别的时候就无法定义出目标词,这样就无法确定问句的框架和框架要素,导致无法对问句以及答句进行解析。
[0007]比如“毛坝3井深”,这个句子在问答场景下的语义是非常明确的,就是问“毛坝3”这个集气站所包含的各井的“井深”,但是问句中没有动词只有名词,NLP无法识别这种句子的框架和框架要素。
[0008](3)无虚词序列也无法识别框架
[0009]借鉴槽位方法,在句子中把实体去掉,以留下的虚词序列作为目标词进行框架识别,这样的结果由于只应用了一半的信息,因此,也无法识别句子的框架和框架要素。
[0010]对于有虚词的句子如“毛坝3井深是多少”可以通过去掉实体词“毛坝3”、“井深”并保留槽位位置得到一个虚词序列目标词“,,是多少”,通过这个目标词可以识别句子的框架,但是对于没有虚词的句子比如“毛坝3井深”,这种虚词序列方法也无法识别句子的框架和框架要素。
[0011](4)对问句的解析不能自动得到答句的形式
[0012]由于问句和答句是成对出现的,问句不同答句也不同,以保持问句和答句的用词、语气、语义的一致性。但是单独对问句进行而不考虑答句的话,就不能得到符合场景和语义的流畅的答句形式。

技术实现思路

[0013]本专利技术的目的在于提供一种基于问句框架的问答意图知识库构建方法,该基于问句框架的问答意图知识库构建方法能够解决现有技术中识别框架要素困难且无法自动得
到问句解析的答句形式的问题。
[0014]为了实现上述目的,本专利技术提供如下技术方案:
[0015]一种基于问句框架的问答意图知识库构建系统,包括:数据层,包括问句语料库、框架要素字典和问答意图知识库;用于存储文件、读写文件和修改文件;
[0016]处理层,包括框架要素处理模块和问答句改写模块,用于改写句子;
[0017]应用层,包括问句分析模块,用于输出改写句子所形成的候选目标词串。
[0018]在上述技术方案的基础上,本专利技术还可以做如下改进:
[0019]进一步地,所述问句语料库包括序号、问句来源和问句,用来记录所述问句的相关信息。
[0020]进一步地,所述框架要素字典的格式包括框架的名称和框架要素代号;所述框架要素字典包括问句解析,所述问句解析包括第一层和第二层,所述第一层用于序列解析,所述第二层用于蕴含关系和层次结构解析。
[0021]进一步地,所述问答意图知识库包括问句目标词串和问答意图解析,所述问答意图解析包括第一部分和第二部分,所述第一部分为框架的名称,所述第二部分为答句模板。
[0022]进一步地,所述框架要素处理模块用于从所述框架要素字典中查找出词串。
[0023]进一步地,所述改写模块用于对所述句子中的词串进行字符替换,完成对所述句子的改写,每一次改写后的句子将作为新的原始句子加入到改写句子集合中进行累加,直到所有的框架要素字符串都使用过,得到改写句子集合。
[0024]进一步地,所述问句分析模块用于建立读入问句列表,对所述改写句子所形成的框架目标词串按照词串长度进行逆向排序输出。
[0025]一种基于问句框架的问答意图知识库构建方法,所述方法具体包括:
[0026]S101,根据框架要素字典和问句文件构建句子框架要素字典;
[0027]S102,对所述句子框架要素字典进行循环;
[0028]S103,对现有句子目标词串集合进行循环,形成新的候选候选目标词串集合,将句子保留在新的候选目标词串集合中;
[0029]S104,用句子框架要素字典替换目标词串中的对应的词,更新所述候选目标词串集合;
[0030]S105,按候选目标词串长度排序,输出候选目标词串。
[0031]进一步地,构建句子框架要素字典具体包括:查找所述问句文件中的每个句子,当所述框架要素字典中的词在所述句子中出现时,将所述句子收集在所述框架要素字典中形成句子框架要素字典。
[0032]本专利技术具有如下优点:
[0033]本专利技术中的基于问句框架的问答意图知识库构建系统及方法,最大限度的采用了问句中所有字以及语序的信息,最大限度地保留了问句目标词串的语义,不仅能有效地消除词级的对象歧义,也能通过问句的目标词串实现对问句的框架名称的识别、框架要素的解析和答句的生成,解决了问答系统中问答意图的解析;解决了现有技术中识别框架要素困难且无法自动得到问句解析的答句形式的问题。
附图说明
[0034]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术实施例中问答意图知识库构建系统的示意图;
[0036]图2为本专利技术实施例中问答意图知识库构建方法的流程示意图;
[0037]图3为本专利技术实施例中问答框架名称编码规则以及框架要素的定义示意图;
[0038]图4为本专利技术实施例中问句语料库的格式的示意图;
[0039]图5为本专利技术实施例中框架要素字典格式的示意图;
[0040]图6为本专利技术实施例中问答图知识库格式的示意图。
[0041]附图标记说明:
[0042]数据层10,问句语料库101,框架要素字典102,问答意图知识库103,处理层20,框架要素处理模块201,问答句改写模块202,应用层30,问句分析模块301。
具体实施方式
[0043]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于问句框架的问答意图知识库构建系统,其特征在于,包括:数据层,包括问句语料库、框架要素字典和问答意图知识库;用于存储文件、读写文件和修改文件;处理层,包括框架要素处理模块和问答句改写模块,用于改写句子;应用层,包括问句分析模块,用于输出改写句子所形成的候选目标词串。2.根据权利要求1所述的基于问句框架的问答意图知识库构建系统,其特征在于,所述问句语料库包括序号、问句来源和问句,用来记录所述问句的相关信息。3.根据权利要求2所述的基于问句框架的问答意图知识库构建系统,其特征在于,所述框架要素字典的格式包括框架的名称和框架要素代号;所述框架要素字典包括问句解析,所述问句解析包括第一层和第二层,所述第一层用于序列解析,所述第二层用于蕴含关系和层次结构解析。4.根据权利要求3所述的基于问句框架的问答意图知识库构建系统,其特征在于,所述问答意图知识库包括问句目标词串和问答意图解析,所述问答意图解析包括第一部分和第二部分,所述第一部分为框架的名称,所述第二部分为答句模板。5.根据权利要求1所述的基于问句框架的问答意图知识库构建系统,其特征在于,所述框架要素处理模块用于从所述框架要素字典中查找出词串。6.根据权利要求5所述的基于问句框架的问答意...

【专利技术属性】
技术研发人员:侯志强柳晶晶刘锋谭培波
申请(专利权)人:北京智通云联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1