知识问答方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:35472070 阅读:15 留言:0更新日期:2022-11-05 16:18
本申请的实施例提供了一种知识问答方法、装置、计算机可读介质及电子设备,该方法包括:获取为知识图谱中的各种关系分别制定的问题模板;根据问题模板内占位符所指示的填充内容类型和内容填充位置分别向问题模板填充内容,得到问题;以各问题和每一问题对应的关系作为训练数据,根据训练数据训练得到实体关系识别模型,并基于实体关系识别模型识别出与待回答问题对应的目标关系;从知识图谱中确定出与待回答问题中实体匹配的目标实体;基于目标实体和目标关系生成待回答问题对应的问题答案。本申请实施例解决了模型的冷启动的问题,能够提高知识问答的性能和泛化性。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。种场景。种场景。

【技术实现步骤摘要】
知识问答方法、装置、计算机可读介质及电子设备


[0001]本申请涉及自然语言处理
,具体而言,涉及一种知识问答方法、装置、计算机可读介质及电子设备。

技术介绍

[0002]随着人工智能的发展,自然语言处理技术得到了迅猛发展,知识问答便是自然语言处理领域中的重要研究课题之一。
[0003]现有的知识问答方法在项目初期没有训练数据,面临严重的冷启动问题,严重制约了模型的开发工作,若没有构建大量的标注数据或者模板,这会使得知识问答的性能很低;但如果构建大量的标注数据或者模板,则会消耗大量的人力成本,费时费力;并且,即使构建了大量的模板,并基于模板来进行知识问答,能够达到的覆盖率和鲁棒性也很低。

技术实现思路

[0004]本申请的实施例提供了一种知识问答方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以在训练数据的条件下能够很好地解决冷启动问题,并且能够提高知识问答的性能和泛化性。
[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0006]根据本申请实施例的一个方面,提供了一种知识问答方法,所述方法包括:获取为知识图谱中的各种关系分别制定的包含至少一个占位符的问题模板,所述占位符用于指示所述问题模板中内容填充位置和填充内容类型;针对每一问题模板,根据所述问题模板内占位符所指示的填充内容类型和内容填充位置分别向所述问题模板内占位符填充内容,得到至少一个问题;以各问题和每一问题对应的关系作为训练数据,根据所述训练数据训练得到实体关系识别模型,并基于所述实体关系识别模型识别出与待回答问题对应的目标关系;从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体;基于所述目标实体和所述目标关系生成所述待回答问题对应的问题答案。
[0007]根据本申请实施例的一个方面,提供了一种知识问答装置,所述装置包括:获取单元,用于获取为知识图谱中的各种关系分别制定的包含至少一个占位符的问题模板,所述占位符用于指示所述问题模板中内容填充位置和填充内容类型;填充单元,用于针对每一问题模板,根据所述问题模板内占位符所指示的填充内容类型和内容填充位置分别向所述问题模板内占位符填充内容,得到至少一个问题;关系识别单元,用于以各问题和每一问题对应的关系作为训练数据,根据所述训练数据训练得到实体关系识别模型,并基于所述实体关系识别模型识别出与待回答问题对应的目标关系;确定单元,用于从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体;生成单元,用于基于所述目标实体和所述目标关系生成所述待回答问题对应的问题答案。
[0008]在本申请的一些实施例中,基于前述方案,所述生成单元配置为:基于所述目标实
体和所述目标关系在所述知识图谱中查询出所述目标实体关联的关联实体;根据所述关联实体和所述目标关系生成所述待回答问题对应的问题答案。
[0009]在本申请的一些实施例中,基于前述方案,所述生成单元配置为:以所述目标实体作为中心节点,从所述知识图谱中抽取出包括至少一个与所述目标实体关联的关联实体的子图,其中,所述子图内的任意实体与所述中心节点的距离低于预定数目条边;基于所述目标实体和所述目标关系在所述子图中查询出所述目标实体关联的关联实体。
[0010]在本申请的一些实施例中,基于前述方案,所述生成单元配置为:将所述关联实体填充至与所述目标关系对应的答案模板中,得到所述待回答问题对应的问题答案。
[0011]在本申请的一些实施例中,基于前述方案,所述关系识别单元配置为:针对每一问题,通过多种数据增强方式对所述问题分别进行数据增强,得到所述问题对应多个增强后问题,并将所述问题对应的关系作为所述增强后问题对应的关系;将各问题、各问题对应的关系、各增强后问题以及各增强后问题对应的关系作为训练数据,根据所述训练数据训练得到实体关系识别模型。
[0012]在本申请的一些实施例中,基于前述方案,所述多种数据增强方式包括下列至少两种:将问题中的词替换为同义词;向问题中随机插入问题中词的同义词;随机删除问题中的词;随机选取问题中的两个词进行位置交换;先通过翻译工具将原始语言的问题翻译为其他语言的问题,再通过翻译工具将其他语言的问题翻译为原始语言。
[0013]在本申请的一些实施例中,基于前述方案,所述确定单元配置为:根据所述知识图谱中实体的部分字符串与所述待回答问题中实体的匹配情况,在所述知识图谱中确定出候选实体;或者根据所述知识图谱中实体与所述待回答问题中实体的部分字符串匹配情况,在所述知识图谱中确定出候选实体;确定每个候选实体与目标实体的匹配度,并根据各候选实体对应的匹配度在各候选实体中确定出目标实体。
[0014]在本申请的一些实施例中,基于前述方案,所述确定单元配置为:基于编辑距离确定每个候选实体与目标实体的字面匹配度;通过预训练模型分别提取出候选实体的特征表示和目标实体的特征表示;针对每一候选实体,确定所述候选实体的特征表示和目标实体的特征表示之间的相关度,作为所述候选实体与目标实体的语义匹配度;针对每一候选实体,根据所述候选实体与目标实体的字面匹配度和语义匹配度,确定出所述候选实体与目标实体的匹配度。
[0015]在本申请的一些实施例中,基于前述方案,在从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体之前,所述确定单元还用于:获取包括多个实体的实体字典;将所述实体字典中的实体与包括多个文本的语料集进行匹配,得到所述语料集中与所述实体匹配的文本;以各实体和与各实体匹配的文本作为训练集,根据所述训练集对预训练模型进行训练,得到实体识别模型;基于所述实体字典确定所述待回答问题中的词与多个实体分别对应的第一匹配度,并基于所述实体识别模型确定所述待回答问题与多个实体分别对应的第二匹配度;根据各实体对应的第一匹配度和第二匹配度在各实体中确定出所述待回答问题中的实体。
[0016]根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的知识问答方法。
[0017]根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的知识问答方法。
[0018]根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上述实施例中所述的知识问答方法。
[0019]在本申请的一些实施例所提供的技术方案中,通过预先为知识图谱中的每一种关系制定对应的问题模板,并根据问题模板内占位符指示的内容填充位置和填充内容类型向问题模板内占位符填充内容,得到相应的问题,从而构建了多个问题;然后,通过以各问题和每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识问答方法,其特征在于,所述方法包括:获取为知识图谱中的各种关系分别制定的包含至少一个占位符的问题模板,所述占位符用于指示所述问题模板中内容填充位置和填充内容类型;针对每一问题模板,根据所述问题模板内占位符所指示的填充内容类型和内容填充位置分别向所述问题模板内占位符填充内容,得到至少一个问题;以各问题和每一问题对应的关系作为训练数据,根据所述训练数据训练得到实体关系识别模型,并基于所述实体关系识别模型识别出与待回答问题对应的目标关系;从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体;基于所述目标实体和所述目标关系生成所述待回答问题对应的问题答案。2.根据权利要求1所述的知识问答方法,其特征在于,所述基于所述目标实体和所述目标关系生成所述待回答问题对应的问题答案,包括:基于所述目标实体和所述目标关系在所述知识图谱中查询出所述目标实体关联的关联实体;根据所述关联实体和所述目标关系生成所述待回答问题对应的问题答案。3.根据权利要求2所述的知识问答方法,其特征在于,所述基于所述目标实体和所述目标关系在所述知识图谱中查询出所述目标实体关联的关联实体,包括:以所述目标实体作为中心节点,从所述知识图谱中抽取出包括至少一个与所述目标实体关联的关联实体的子图,其中,所述子图内的任意实体与所述中心节点的距离低于预定数目条边;基于所述目标实体和所述目标关系在所述子图中查询出所述目标实体关联的关联实体。4.根据权利要求2所述的知识问答方法,其特征在于,所述根据所述关联实体和所述目标关系生成所述待回答问题对应的问题答案,包括:将所述关联实体填充至与所述目标关系对应的答案模板中,得到所述待回答问题对应的问题答案。5.根据权利要求1所述的知识问答方法,其特征在于,所述以各问题和每一问题对应的关系作为训练数据,根据所述训练数据训练得到实体关系识别模型,包括:针对每一问题,通过多种数据增强方式对所述问题分别进行数据增强,得到所述问题对应多个增强后问题,并将所述问题对应的关系作为所述增强后问题对应的关系;将各问题、各问题对应的关系、各增强后问题以及各增强后问题对应的关系作为训练数据,根据所述训练数据训练得到实体关系识别模型。6.根据权利要求5所述的知识问答方法,其特征在于,所述多种数据增强方式包括下列至少两种:将问题中的词替换为同义词;向问题中随机插入问题中词的同义词;随机删除问题中的词;随机选取问题中的两个词进行位置交换;先通过翻译工具将原始语言的问题翻译为其他语言的问题,再通过翻译工具将其他语言的问题翻译为原始语言。7.根据权利要求1所述的知识问答方法,其特征在于,所述从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体,包括:根据所述知识图谱中实体的部分字符串与所述待回答问题中实体的匹配情况,在所述知识图谱中确定出候选实体;或者
根据所述知识图谱中实体与所述待回答问题中实体的部分字符串匹配情况,在所述知识...

【专利技术属性】
技术研发人员:林镇溪张子恒
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1