System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于文档的答案生成方法和装置、电子设备及存储介质制造方法及图纸_技高网

基于文档的答案生成方法和装置、电子设备及存储介质制造方法及图纸

技术编号:40528189 阅读:6 留言:0更新日期:2024-03-01 13:48
本申请实施例提供了一种基于文档的答案生成方法和装置、电子设备及存储介质,属于金融科技技术领域。该方法包括:获取问题数据;根据所述问题数据从预设的搜索数据库中进行答案查询,得到原始答案文档;将所述原始答案文档与所述问题数据进行相似度计算,得到问答相似度;根据所述问答相似度从所述原始答案文档筛选出候选答案文档;根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充,得到问题提示数据;根据预设的语言模型对所述问题提示数据进行语义理解,得到目标答案数据。本申请实施例能够提高答案生成的灵活性。

【技术实现步骤摘要】

本申请涉及金融科技,尤其涉及一种基于文档的答案生成方法和装置、电子设备及存储介质


技术介绍

1、目前,在金融科技领域,可以通过智能问答模型对用户的提问进行回答,例如,针对用户提出的办理保险年龄限制的问题,智能问答模型可以从保险介绍数据中抽取出对应的答案,如答案可以是购买a保险的年龄限制为b周岁到c周岁之间。上述抽取答案的方法由于依据的是文档抽取的方式,所以要求被抽取的文档中必须包含连续的整段答案,否则智能问答模型无法抽取,可见在上述方法中智能问答模型存在灵活性差的问题。因此,如何提供一种答案生成方法,以提高答案生成的灵活性,成为了亟待解决的技术问题。


技术实现思路

1、本申请实施例的主要目的在于提出一种基于文档的答案生成方法和装置、电子设备及存储介质,旨在提高答案生成的灵活性。

2、为实现上述目的,本申请实施例的第一方面提出了一种基于文档的答案生成方法,所述方法包括:

3、获取问题数据;

4、根据所述问题数据从预设的搜索数据库中进行答案查询,得到原始答案文档;

5、将所述原始答案文档与所述问题数据进行相似度计算,得到问答相似度;

6、根据所述问答相似度从所述原始答案文档筛选出候选答案文档;

7、根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充,得到问题提示数据;

8、根据预设的语言模型对所述问题提示数据进行语义理解,得到目标答案数据。

9、在一些实施例,所述问题提示模板包括答案来源提示文本、问题来源提示文本、第一填充模块和第二填充模块,所述根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充,得到问题提示数据,包括:

10、根据所述候选答案文档对所述第一填充模块进行答案填充,得到答案内容提示数据;

11、根据所述问题数据对所述第二填充模块进行问题填充,得到问题内容提示数据;

12、将所述答案来源提示文本与所述答案内容提示数据进行数据映射,得到答案文本;

13、将所述问题来源提示文本与所述问题内容提示数据进行数据映射,得到问题文本;

14、根据所述答案文本和所述问题文本得到所述问题提示数据。

15、在一些实施例,所述将所述原始答案文档与所述问题数据进行相似度计算,得到问答相似度,包括:

16、根据所述原始答案文档构建答案向量,并根据所述问题数据构建问题向量;

17、将所述答案向量与所述问题向量进行乘积计算,得到问答乘积值;

18、将所述答案向量与所述问题向量进行向量长度计算,得到问答向量长度值;

19、根据所述问答乘积值和所述问答向量长度值计算得到所述问答相似度。

20、在一些实施例,所述根据所述原始答案文档构建答案向量,包括:

21、对所述原始答案文档进行分词处理,得到分词数据;

22、根据所述分词数据计算得到分词词频,并根据所述分词数据计算得到逆文档频率;

23、对所述分词数据进行词嵌入处理,得到词向量;

24、根据所述分词词频、所述逆文档频率、所述词向量进行乘积计算,得到所述答案向量。

25、在一些实施例,所述根据所述分词数据计算得到分词词频,包括:

26、确定所述分词数据在所述原始答案文档中的重复次数;

27、确定所有所述分词数据的总数量;

28、根据所述总数量、所述重复次数计算得到所述分词词频。

29、在一些实施例,所述根据所述分词数据计算得到逆文档频率,包括:

30、根据所述分词数据对预设的文档数据库进行文档匹配,得到文档匹配数量;

31、根据所述文档匹配数量、所述文档数据库的总文档数量计算得到所述逆文档频率。

32、在一些实施例,所述搜索数据库包括网页文档和所述网页文档的网页关键词;

33、所述根据所述问题数据从预设的搜索数据库中进行答案查询,得到原始答案文档,包括:

34、对所述问题数据进行关键词提取,得到问题关键词;

35、将所述问题关键词与所述网页关键词进行匹配,得到匹配结果;

36、根据所述匹配结果对所述网页文档进行排序,得到网页排序数据;

37、从所述网页排序数据筛选出所述原始答案文档。

38、为实现上述目的,本申请实施例的第二方面提出了一种基于文档的答案生成装置,所述装置包括:

39、数据获取模块,用于获取问题数据;

40、数据匹配模块,用于根据所述问题数据从预设的搜索数据库中进行答案查询,得到原始答案文档;

41、相似度计算模块,用于将所述原始答案文档与所述问题数据进行相似度计算,得到问答相似度;

42、候选答案确定模块,用于根据所述问答相似度从所述原始答案文档筛选出候选答案文档;

43、数据填充模块,用于根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充,得到问题提示数据;

44、目标答案确定模块,用于根据预设的语言模型对所述问题提示数据进行语义理解,得到目标答案数据。

45、为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

46、为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

47、本申请提出的基于文档的答案生成方法和装置、电子设备及存储介质,其通过搜索数据数据库对问题数据进行答案查询,得到原始答案文档。通过对原始答案文档进行筛选得到候选答案文档。通过语言模型对包括问题数据和候选答案文档的问题提示数据进行语义理解,得到目标答案数据。由此可知,本申请是基于语言模型得到目标答案数据,相较于相关技术中通过文档抽取方式获取答案的方法,本申请能够减少答案的生成必须依赖于文档包含连续整段答案的情况,从而提高了答案生成的灵活性。

本文档来自技高网...

【技术保护点】

1.一种基于文档的答案生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述问题提示模板包括答案来源提示文本、问题来源提示文本、第一填充模块和第二填充模块,所述根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充,得到问题提示数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述原始答案文档与所述问题数据进行相似度计算,得到问答相似度,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述原始答案文档构建答案向量,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述分词数据计算得到分词词频,包括:

6.根据权利要求4所述的方法,其特征在于,所述根据所述分词数据计算得到逆文档频率,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述搜索数据库包括网页文档和所述网页文档的网页关键词;

8.一种基于文档的答案生成装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于文档的答案生成方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于文档的答案生成方法。

...

【技术特征摘要】

1.一种基于文档的答案生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述问题提示模板包括答案来源提示文本、问题来源提示文本、第一填充模块和第二填充模块,所述根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充,得到问题提示数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述原始答案文档与所述问题数据进行相似度计算,得到问答相似度,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述原始答案文档构建答案向量,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述分词数据计算得到分词词频,包括:

6.根...

【专利技术属性】
技术研发人员:张炜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1