基于上下文语义检索的图谱问答方法、系统与计算机可读介质技术方案

技术编号:38392716 阅读:11 留言:0更新日期:2023-08-05 17:45
本发明专利技术提供一种基于上下文语义检索的图谱问答方法、系统与计算机可读介质,包括:对用户输入的问题进行纠错处理,生成符合格式要求的问句;基于上下文语义检索构建预训练模型,对所述问句进行语义检索,获得候选S、P、O;结合多层滑动窗口精筛算法对所述候选S、P、O进行精筛,得到目标S、P、O;判断所述目标S、P、O的问题类型,通过图查询语句生成模块生成与问题类型相应的图查询语句;在图数据库上执行所述图查询语句并解析查询结果,生成符合格式要求的问题答案以反馈给用户。本发明专利技术方法解决了对大量标注数据和模型训练的需求,以适用于现有知识图谱系统中需要快速体验问答效果而又缺乏训练数据的场景。练数据的场景。练数据的场景。

【技术实现步骤摘要】
基于上下文语义检索的图谱问答方法、系统与计算机可读介质


[0001]本专利技术涉及自然语言处理NPL
,具体而言涉及一种基于上下文语义检索的图谱问答方法、系统与计算机可读介质。

技术介绍

[0002]目前,基于标准表格的问答(根据给定的表格,针对表格相关内容的查询、推理问题,提供对应的智能问答)变得越来越重要,现有技术通常是将问题解析成对应的SQL语句以实现问答,而将标准表格数据转换成三元组构建成图谱并在图谱上做问答,以知识图谱问答系统完成问答任务是常见的表格问答方案。
[0003]现有技术中,将标准表格问答任务定义成基于知识图谱的问答任务,即通过对用户输入query(问题)进行语义解析,生成结构化查询语句,从给定知识库中选择若干实体或属性值作为该问题的答案,即为现有的知识图谱问答系统,其通常需要借助深度神经网络进行长时间的训练,且在训练时需要大量的标注数据,这种情况无法适用于需要快速体验问答效果而又缺乏训练数据的场景。

技术实现思路

[0004]根据本专利技术目的的第一方面,提供一种基于上下文语义检索的图谱问答方法,包括:
[0005]步骤1、对用户输入的问题进行纠错处理,生成符合格式要求的问句;
[0006]步骤2、基于上下文语义检索构建预训练模型,对所述问句进行语义检索,获得候选S、P、O;
[0007]步骤3、结合多层滑动窗口精筛算法对所述候选S、P、O进行精筛,得到目标S、P、O;
[0008]步骤4、判断所述目标S、P、O的问题类型,通过图查询语句生成模块生成与问题类型相应的图查询语句;
[0009]步骤5、在图数据库上执行所述图查询语句并解析查询结果,生成符合格式要求的问题答案以反馈给用户。
[0010]进一步地,前述步骤1中,对用户输入的问题进行纠错处理,生成符合格式要求的问句,包括:
[0011]判断用户输入的问题是否存在错别字、错误拼音;
[0012]若用户输入的问题存在错别字,则通过Query纠错模块对错别字进行矫正,将正确的汉字替换错别字,生成符合格式要求的问句;
[0013]若用户输入的问题存在错误的拼音,则通过Query纠错模块对错误的拼音进行矫正,将正确的汉字替代错误的拼音,生成符合格式要求的问句;
[0014]若用户输入的问题不存在错别字和错误的拼音,则直接生成符合格式要求的问句。
[0015]进一步地,前述步骤2中,基于上下文语义检索构建预训练模型,通过优化负对数似然函数进行训练,并以loss损失函数形式进行表示,如下:
[0016][0017]其中,q表示问句,c表示候选的向量表,s(q,c)表示整个语句整体标准的向量的匹配相似度。
[0018]进一步地,前述步骤2中,对所述问句进行语义检索,获得候选S、P、O,包括:
[0019]将问句和候选向量表的令牌编码设置为上下文本向量,输入所述预训练模型中,通过指针网络找到主语;
[0020]将所述主语与所述上下文本向量连接,获取所述主语在问句文本中涉及到的所有谓语;
[0021]通过指针网络找到每个谓语在问句文本中对应的宾语;
[0022]输出找到的主语、谓语和宾语,得到候选S、P、O。
[0023]进一步地,前述步骤3中,结合多层滑动窗口精筛算法对所述候选S、P、O进行精筛,得到目标S、P、O,包括:
[0024]利用哈希集存储候选S、P、O的字符串,并将所述哈希集作为滑动窗口;
[0025]通过所述滑动窗口滑动S字符索引,去除最大长度的子字符串;
[0026]再次进行窗口滑动,去除其它长度的子字符串,只保留平均长度的子字符串;
[0027]选择保留的子字符串所对应的字符,获得目标S;
[0028]再通过所述滑动窗口滑动P、O字符索引,同步去除最大长度的子字符串;
[0029]再次进行窗口滑动,同步去除其它长度的子字符串,只保留平均长度的子字符串;
[0030]选择保留的子字符串所对应的字符,获得目标P、O。
[0031]进一步地,判断所述目标S、P、O的问题类型,包括:
[0032]通过Query类型判断模块对所述目标S、P、O生成的索引进行问题类型判断;
[0033]若所述目标S、P、O生成的索引为OPS,则问题类型为反查类问题;
[0034]若所述目标S、P、O生成的索引为SOP,则问题类型为关系类问题;
[0035]若所述目标S、P、O生成的索引为SPO,则问题类型为直查类问题。
[0036]进一步地,前述步骤4中,通过图查询语句生成模块生成与问题类型相应的图查询语句,包括:
[0037]若为反查类问题,则通过反查类图查询语句生成模块生成图查询语句;
[0038]若为关系类问题,则通过关系类图查询语句生成模块生成图查询语句;
[0039]若为直查类问题,则通过直查类图查询语句生成模块生成图查询语句。根据本专利技术目的的第二方面,提供一种基于上下文语义检索的图谱问答系统,包括:
[0040]一个或多个处理器;
[0041]存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括如基于上下文语义检索的图谱问答方法的流程。
[0042]根据本专利技术目的的第三方面,提供一种存储软件的计算机可读介质,所述软件包括能通过一个或多个计算机执行的指令,所述指令通过这样的执行使得所述一个或多个计
算机执行操作,所述操作包括如基于上下文语义检索的图谱问答方法的流程。
[0043]与现有技术相比,本专利技术所达到的技术效果:本专利技术方法通过对问句进行纠错处理,提高知识图谱问答系统对问题的解析准确度,同时,通过上下文词汇匹配的打分函数和BERT的CLS表征方式对问句词汇进行语义匹配运算,根据整个句子的整体标准的向量的相似度对目标SPO进行判断,提高了词汇匹配的准确率;另一方面,本专利技术通过多层滑动窗口精筛算法实现对目标SPO的精准判断,为后续确定问题类型提供精准保障,避免对大量标注数据和模型训练的需求,以适用于现有知识图谱系统中需要快速体验问答效果而又缺乏训练数据的场景。
[0044]应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的专利技术主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的专利技术主题的一部分。
[0045]结合附图从下面的描述中可以更加全面地理解本专利技术教导的前述和其他方面、实施例和特征。本专利技术的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本专利技术教导的具体实施方式的实践中得知。
附图说明
[0046]附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文语义检索的图谱问答方法,其特征在于,包括:步骤1、对用户输入的问题进行纠错处理,生成符合格式要求的问句;步骤2、基于上下文语义检索构建预训练模型,对所述问句进行语义检索,获得候选S、P、O;步骤3、结合多层滑动窗口精筛算法对所述候选S、P、O进行精筛,得到目标S、P、O;步骤4、判断所述目标S、P、O的问题类型,通过图查询语句生成模块生成与问题类型相应的图查询语句;步骤5、在图数据库上执行所述图查询语句并解析查询结果,生成符合格式要求的问题答案以反馈给用户。2.根据权利要求1所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤1中,对用户输入的问题进行纠错处理,生成符合格式要求的问句,包括:判断用户输入的问题是否存在错别字、错误拼音;若用户输入的问题存在错别字,则通过Query纠错模块对错别字进行矫正,将正确的汉字替换错别字,生成符合格式要求的问句;若用户输入的问题存在错误的拼音,则通过Query纠错模块对错误的拼音进行矫正,将正确的汉字替代错误的拼音,生成符合格式要求的问句;若用户输入的问题不存在错别字和错误的拼音,则直接生成符合格式要求的问句。3.根据权利要求2所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤2中,基于上下文语义检索构建预训练模型,通过优化负对数似然函数进行训练,并以loss损失函数形式进行表示,如下:其中,q表示问句,c表示候选的向量表,s(q,c)表示整个语句整体标准的向量的匹配相似度。4.根据权利要求3所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤2中,对所述问句进行语义检索,获得候选S、P、O,包括:将问句和候选向量表的令牌编码设置为上下文本向量,输入所述预训练模型中,通过指针网络找到主语;将所述主语与所述上下文本向量连接,获取所述主语在问句文本中涉及到的所有谓语;通过指针网络找到每个谓语在问句文本中对应的宾语;输出找到的主语、谓语和宾语,得到候选S、P、O。5.根据权利要求4所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤3中,结...

【专利技术属性】
技术研发人员:王杰杜振东王清琛
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1