System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档问答的方法、装置、电子设备及存储介质制造方法及图纸_技高网

文档问答的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40540393 阅读:4 留言:0更新日期:2024-03-05 18:55
本申请提供了一种文档问答的方法、装置、电子设备及存储介质,该方法包括:对目标文档进行解析,得到N个文档切片;根据目标问题对所述N个文档切片进行相似度计算,得到M个第一相似度;在所述M个第一相似度所对应的M个文档切片中进行切片分句和切片组合,得到X个文档切片;将X个文档切片、目标提示指令和所述目标问题输入到目标大模型中进行文档问答,得到问答结果,所述目标提示指令基于所述目标问题生成。本申请通过对目标文档进行解析得到文档切片,并根据目标问题对文档切片进行相似度计算,从将相似度高对应的文档切片进行切片分句和切片组合后输入到大模型中进行文档问答,从而提高了大模型进行文档问答的准确率。

【技术实现步骤摘要】

本申请涉及大模型,尤其涉及一种文档问答的方法、装置、电子设备及存储介质


技术介绍

1、目前,基于大模型的文档问答,一般是通过上传文档,解析文档内容,客户提出文档相关的问题,大模型作答等流程进行的。由于大模型的能力有限,目前无法处理具备太多噪声的召回片段,从而导致出现通过大模型进行文档问答准确率较低的问题。


技术实现思路

1、本申请实施例提供一种文档问答的方法、装置、电子设备及存储介质,以解决现有技术中通过大模型进行文档问答准确率较低的问题。

2、为了解决上述技术问题,本专利技术是这样实现的:

3、第一方面,本专利技术实施例提供了一种文档问答的方法。该方法包括:

4、对目标文档进行解析,得到n个文档切片,所述n为正整数;

5、根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,所述m为小于或等于所述n的正整数;

6、在所述m个第一相似度所对应的m个文档切片中进行切片分句和切片组合,得到x个文档切片,所述x为小于或等于所述n的正整数;

7、将x个文档切片、目标提示指令和所述目标问题输入到目标大模型中进行文档问答,得到问答结果,所述目标提示指令基于所述目标问题生成。

8、可选的,所述对目标文档进行解析,得到n个文档切片,包括:

9、将所述目标文档输入到文档解析模型进行识别,得到多个文本内容,每个所述文本内容对应一个类别标签,所述类别标签用于指示所述文本内容的类别;

10、根据所述类别标签对所述多个文本内容进行归类,得到多个文本页;

11、基于切片字数阈值对所述多个文本页进行切片,得到所述n个文档切片。

12、可选的,所述根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,包括:

13、根据所述目标问题对所述n个文档切片进行语义相似度计算,得到n个第一相似度;

14、对所述n个第一相似度进行排序,得到排序后的n个第一相似度;

15、在所述排序后的n个第一相似度中确定m个第一相似度。

16、可选的,所述在所述m个第一相似度所对应的m个文档切片中进行切片分句和切片组合,得到x个文档切片,包括:

17、召回所述m个第一相似度所对应的m个文档切片,得到目标文本;

18、对所述目标文本进行分句,得到y个分句文本,所述y为正整数;

19、根据所述目标问题计算对所述y个分句文本进行语义相似度计算,得到y个第二相似度;

20、根据所述y个第二相似度确定所述x个文档切片。

21、可选的,所述根据所述y个第二相似度对应的所述y个分句文本确定所述x个文档切片,包括:

22、在所述y个第二相似度对应的所述y个分句文本中确定第一分句集合和第二分句集合,所述第一分句集合中的分句文本所对应的第二相似度大于或等于预设相似度,所述第二分句集合中的分句文本所对应的第二相似度小于所述预设相似度;

23、将所述第二分句集合中的分句文本进行内容提取和内容缩写,得到处理后的第二分句集合;

24、根据所述第一分句集合和所述处理后的第二分句集合生成所述x个文档切片。

25、可选的,所述将x个文档切片、目标提示指令和所述目标问题输入到目标大模型中进行文档问答,得到问答结果之前,所述方法还包括:

26、根据所述目标问题和所述x个文档切片生成目标提示指令;

27、根据所述目标提示指令和所述目标问题生成答题思维链,所述答题思维链用于所述目标大模型对所述目标问题进行问答。

28、可选的,将x个文档切片、目标提示指令和所述目标问题输入到目标大模型中进行文档问答,得到问答结果,包括:

29、将所述x个文档切片、所述答题思维链和所述目标提示指令输入到预训练的大模型中,得到目标大模型;

30、将所述目标问题输入到目标大模型中进行文档问答,得到问答结果。

31、第二方面,本专利技术实施例还提供一种文档问答的装置。该文档问答的装置包括:

32、解析模块,用于对目标文档进行解析,得到n个文档切片,所述n为正整数;

33、计算模块,用于根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,所述m为小于或等于所述n的正整数;

34、确定模块,用于在所述m个第一相似度所对应的m个文档切片中进行切片分句和切片组合,得到x个文档切片,所述x为小于或等于所述n的正整数;

35、输入模块,用于将x个文档切片、目标提示指令和所述目标问题输入到目标大模型中进行文档问答,得到问答结果,所述目标提示指令基于所述目标问题生成。

36、第三方面,本申请实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文档问答的方法的步骤。

37、第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文档问答的方法的步骤。

38、本申请提供了一种文档问答的方法、装置、电子设备及存储介质,该方法包括:对目标文档进行解析,得到n个文档切片,所述n为正整数;根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,所述m为小于或等于所述n的正整数;在所述m个第一相似度所对应的m个文档切片中进行切片分句和切片组合,得到x个文档切片,所述x为小于或等于所述n的正整数;将x个文档切片、目标提示指令和所述目标问题输入到目标大模型中进行文档问答,得到问答结果,所述目标提示指令基于所述目标问题生成。本申请通过对目标文档进行解析得到文档切片,并根据目标问题对文档切片进行相似度计算,从将相似度高对应的文档切片进行切片分句和切片组合后输入到大模型中进行文档问答,从而提高了大模型进行文档问答的准确率。

本文档来自技高网...

【技术保护点】

1.一种文档问答的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对目标文档进行解析,得到N个文档切片,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据目标问题对所述N个文档切片进行相似度计算,得到M个第一相似度,包括:

4.根据权利要求3所述的方法,其特征在于,所述在所述M个第一相似度所对应的M个文档切片中进行切片分句和切片组合,得到X个文档切片,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述Y个第二相似度对应的所述Y个分句文本确定所述X个文档切片,包括:

6.根据权利要求1所述的方法,其特征在于,所述将X个文档切片、目标提示指令和所述目标问题输入到目标大模型中进行文档问答,得到问答结果之前,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,将X个文档切片、目标提示指令和所述目标问题输入到目标大模型中进行文档问答,得到问答结果,包括:

8.一种文档问答的装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的文档问答的方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文档问答的方法的步骤。

...

【技术特征摘要】

1.一种文档问答的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对目标文档进行解析,得到n个文档切片,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,包括:

4.根据权利要求3所述的方法,其特征在于,所述在所述m个第一相似度所对应的m个文档切片中进行切片分句和切片组合,得到x个文档切片,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述y个第二相似度对应的所述y个分句文本确定所述x个文档切片,包括:

6.根据权利要求1所述的方法,其特征在于,所述将x个文档切片、目标提示指令和所述目标问题...

【专利技术属性】
技术研发人员:崔明飞范清李犇贾敬伍王振
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1