System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 知识问答路径搜索方法及相关装置制造方法及图纸_技高网

知识问答路径搜索方法及相关装置制造方法及图纸

技术编号:40358485 阅读:7 留言:0更新日期:2024-02-09 14:44
本申请公开了一种知识问答路径搜索方法及相关装置,该方法包括:搜索装置获取用户的提问语句及知识图谱;搜索装置根据目标词汇获取至少两个实体名称。搜索装置根据知识图谱及至少两个实体名称计算得到至少两个实体名称中每个实体名称的分数,每个实体名称的分数用于表征该实体名称与目标词汇的匹配程度。搜索装置根据至少两个实体名称的分数从知识图谱中确定出起点候选集,起点与目标词汇对应;根据起点候选集、提问语句和知识图谱确定提问语句对应的至少一条答案路径。采用此方法在确定起点候选集时可以避免采用SSI方式将前缀不相同后缀相同的实体排除在外情况的发生,从而可以得到更加全面的答案路径。

【技术实现步骤摘要】

本申请涉及信息,尤其涉及一种知识问答路径搜索方法及相关装置


技术介绍

1、信息技术的发展不断推动着互联网技术的变革,从网页之间的链接到数据之间的连接(人与人,人与物,人与知识,知识与知识),互联网正在朝向web之父berners-lee设想中的语义网络演变。语义网络本质上是一张知识构成的网络,用户可以在语义网络上查询(即输入一个自然语言问句),查询结果(即经过加工和推理的知识)以图的方式返回。这个查询过程即为知识问答,而知识问答引擎是实现智能化语义检索的基础和桥梁。

2、知识问答引擎不同于传统的互联网搜索引擎。对于用户输入的问题,搜索引擎是基于现存的海量文本,通过倒排索引表和文本匹配找出所有包含用户关键词的网页,排序后展示给用户。与之不同的是,知识问答引擎基于既有的知识图谱,会返回完全匹配的路径,用户可以直接得到问题的答案。

3、如图1a所示,为了支持知识问答的能力,知识问答引擎需要先对用户输入的自然语言问题作数据预处理,比如分词,再根据预处理结果从知识图谱中查询起点,也即从图谱中找到与预处理结果最接近的实体。完成以上几步后,需要在知识图谱对应的图结构上作图查询,搜索问句匹配的路径。最终,整条搜索路径即为用户需要的答案。

4、其中,从图谱中找到与预处理结果最接近的实体可以采用状态索引集合(statesetindex,ssi)的方式,这种方式是一种基于前缀树的字符串匹配技术,具体是将知识图谱中的实体名称映射成数字序列后,建立了一个前缀树,其中前缀树的叶子节点保存了数字序列与相对应的所有实体的名称;然后将由预处理结果的字符串与前缀树中的节点进行匹配,将满足匹配条件的节点对应的实体确定为查询起点。这种方式是基于前缀树进行匹配的,匹配时只能基于筛选出前缀树匹配的字符串,不能筛选出其他合理情况的字符串,比如两个字符串的前缀不匹配而后缀完全相同,但是基于ssi方式也会判断两者不匹配。并且由于ssi会把字符串完全转化为数字,字符串本身带有的文本语义信息就被丢失,在匹配时也就没有利用到文本的语义信息。


技术实现思路

1、本申请提供一种知识问答路径搜索方法及相关装置,在确定起点候选集时,可以避免采用ssi方式将前缀不相同后缀相同的实体排除在外情况的发生,从而可以得到更加全面的答案路径。

2、第一方面,本申请提供一种知识问答路径搜索方法,包括:

3、搜索装置获取用户的提问语句及知识图谱;搜索装置根据目标词汇获取至少两个实体名称,至少两个实体名称为知识图谱中实体的名称,目标词汇为提问语句中的第一个词汇;至少两个实体名称中任意实体名称包括目标词汇或者为目标词汇。搜索装置根据知识图谱及至少两个实体名称计算得到至少两个实体名称中每个实体名称的分数,每个实体名称的分数用于表征该实体名称与目标词汇的匹配程度。搜索装置根据至少两个实体名称的分数从知识图谱中确定出起点候选集,起点与目标词汇对应;根据起点候选集、提问语句和知识图谱确定提问语句对应的至少一条答案路径。

4、其中,答案路径是起点为起点候选集中的实体,终点为知识图谱中包含目标属性的实体的路径。

5、可以看成,根据目标词汇获取至少两个实体名称,根据至少两个实体名称及知识图谱计算得到至少两个实体名称中每个实体名称的分数,根据每个实体名称的分数从知识图谱中确定出起点候选集,采用这种方式,可以避免采用ssi方式将前缀不相同后缀相同的实体排除在外情况的发生,从而可以得到更加全面的答案路径。

6、在一个可能的实现方式中,本申请的方法还包括:

7、搜索装置根据知识图谱得到词汇倒排表;其中,词汇倒排表包括多个词汇与多个实体名称之间的对应关系,一个词汇对应一个或多个实体名称,多个实体名称中的每个实体名称包括与该实体名称对应的词汇,或者每个实体名称为该实体名称对应的词汇;

8、搜索装置根据目标词汇获取至少两个实体名称,包括:

9、搜索装置根据目标词汇遍历词汇倒排表,以得到至少两个实体名称。

10、基于词汇倒排表可以快速找到与目标词汇对应的实体名称,从而提高了路径搜索的效率。

11、在一个可能的实现方式中,搜索装置根据知识图谱及至少两个实体名称计算得到至少两个实体名称中每个实体名称的分数,包括:

12、搜索装置获取目标词汇的权重;根据目标词汇的权重,每个实体名称中词汇的数量、知识图谱中所有实体名称的词汇数量的平均值及目标词汇在每个实体名称出现的次数计算得到每个实体名称的分数。

13、通过目标词汇的权重、目标词汇在每个实体名称中出现的次数、每个实体名称中的词汇数量和全部实体的词汇数量的平均值计算每个实体名称的分数,并通过建立以词汇为单位的倒排表索引优化每个实体名称的分数计算,不仅提高了确定起点候选集的效率,还提高了起点候选集的精度。

14、在一个可能的实现方式中,搜索装置根据至少两个实体名称的分数从知识图谱中确定出起点候选集,包括:

15、搜索装置按照从大到小的顺序对至少两个实体名称的分数排序;按照第一预设匹配规则分别将分数排序靠前的k个实体名称与目标词汇进行匹配,以得到匹配的实体名称。搜索装置确定起点候选集包括在知识图谱中名称为匹配的实体名称的实体。

16、基于至少两个实体名称的分数对至少两个实体名称进行排序,并按照预设匹配规则分别将排序靠前的k个实体名称与目标词汇进行匹配,将名称与目标词汇匹配的实体确定为答案路径的起点,从而得到起点候选集,按照该方式,可以提高起点候选集的精度,从而提高答案路径的准确性。

17、在一个可能的实现方式中,搜索装置根据起点候选集、提问语句和知识图谱确定提问语句对应的至少一条答案路径,包括:

18、搜索装置从提问语句中获取中介词汇集及目标属性词;其中,中介词汇集包括的词汇为提问语句中除了目标词汇和目标属性词之外的词汇;搜索装置根据起点候选集和中介词汇集从知识图谱中确定至少一条第一路径,每条第一路径的起点为起点候选集中的实体,每条第一路径的终点为知识图谱中名称与中介词汇集中的最后的一个词汇相匹配的实体;搜索装置根据至少一条第一路径及目标属性词确定至少一条答案路径,其中,答案路径的终点的属性包括目标属性。

19、其中,每条第一路径包括名称与中介词汇集中所有词汇相匹配的实体。比如中介词汇集包括3个词汇,每条第一路径中有3个实体的名称分别与中介词汇集中的3个词汇相匹配。

20、在一个可能的实现方式中,搜索装置根据起点候选集和中介词汇集从知识图谱中确定至少一条第一路径,包括:

21、搜索装置以起点候选集中的实体为起点,基于中介词汇集获取多个子路径集合;其中,多个子路径集合中的第i个子路径集合中的每条子路径的起点为第一实体,每条子路径的终点为第二实体,在知识图谱中第一实体与第二实体之间的深度不大于搜索深度;第二实体为知识图谱中名称与中介词汇集中第i个词汇相匹配的实体;当i=1时,第一实体为起点候选集中实体;当i大于1时本文档来自技高网...

【技术保护点】

1.一种知识问答路径搜索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述知识图谱及所述至少两个实体名称计算得到所述至少两个实体名称中每个实体名称的分数,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述至少两个实体名称的分数从所述知识图谱中确定出起点候选集,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述起点候选集、所述提问语句和所述知识图谱确定所述提问语句对应的至少一条答案路径,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述起点候选集和所述中介词汇集从所述知识图谱中确定至少一条第一路径,包括:

7.根据权利要求6所述的方法,其特征在于,所述以所述起点候选集中的实体为起点,基于中介词汇集获取多个子路径集合,包括:

8.根据权利要求7所述的方法,其特征在于,所述获取所述子路径P的终点到所述实体O之间的路径,包括:

9.根据权利要求7或8所述的方法,其特征在于,在所述搜索深度的范围内进行搜索所采用的方式是深度快速搜索DFS+广度优先搜索BFS的搜索方式。

10.根据权利要求5-9任一项所述的方法,其特征在于,所述根据所述至少一条第一路径及所述目标属性词确定所述至少一条答案路径,包括:

11.一种搜索装置,其特征在于,包括:

12.根据权利要求11所述的装置,其特征在于,

13.根据权利要求11或12所述的装置,其特征在于,所述计算单元具体用于:

14.根据权利要求11-13任一项所述的装置,其特征在于,在所述根据所述至少两个实体名称的分数从所述知识图谱中确定出起点候选集的方面,所述确定单元具体用于:

15.根据权利要求11-14任一项所述的装置,其特征在于,在所述根据所述起点候选集、所述提问语句和所述知识图谱确定所述提问语句对应的至少一条答案路径的方面,所述确定单元具体用于:

16.根据权利要求15所述的装置,其特征在于,在所述根据所述起点候选集和所述中介词汇集从所述知识图谱中确定至少一条第一路径的方面,所述确定单元具体用于:

17.根据权利要求16所述的装置,其特征在于,在所述以所述起点候选集中的实体为起点,基于中介词汇集获取多个子路径集合的方面,所述确定单元具体用于:

18.根据权利要求17所述的装置,其特征在于,在所述获取所述子路径P的终点到所述实体O之间的路径的方面,所述确定单元具体用于:

19.根据权利要求17或18所述的装置,其特征在于,在所述搜索深度的范围内进行搜索所采用的方式是深度快速搜索DFS+广度优先搜索BFS的搜索方式。

20.根据权利要求15-19任一项所述的装置,其特征在于,在所述根据所述至少一条第一路径及所述目标属性词确定所述至少一条答案路径的方面,所述确定单元具体用于:

21.一种搜索装置,其特征在于,包括处理器和存储器,其中,所述存储器用于存储程序代码,所述处理器用于执行所述程序代码,以实现权利要求1至10任一项所述的方法。

22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至10任一项所述的方法。

...

【技术特征摘要】

1.一种知识问答路径搜索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述知识图谱及所述至少两个实体名称计算得到所述至少两个实体名称中每个实体名称的分数,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述至少两个实体名称的分数从所述知识图谱中确定出起点候选集,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述起点候选集、所述提问语句和所述知识图谱确定所述提问语句对应的至少一条答案路径,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述起点候选集和所述中介词汇集从所述知识图谱中确定至少一条第一路径,包括:

7.根据权利要求6所述的方法,其特征在于,所述以所述起点候选集中的实体为起点,基于中介词汇集获取多个子路径集合,包括:

8.根据权利要求7所述的方法,其特征在于,所述获取所述子路径p的终点到所述实体o之间的路径,包括:

9.根据权利要求7或8所述的方法,其特征在于,在所述搜索深度的范围内进行搜索所采用的方式是深度快速搜索dfs+广度优先搜索bfs的搜索方式。

10.根据权利要求5-9任一项所述的方法,其特征在于,所述根据所述至少一条第一路径及所述目标属性词确定所述至少一条答案路径,包括:

11.一种搜索装置,其特征在于,包括:

12.根据权利要求11所述的装置,其特征在于,

13.根据权利要求11或12所述的装置,其特征在于,所述计算单元具体用于:

14...

【专利技术属性】
技术研发人员:曾立路金成游齐恒刘时正
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1