System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大模型,尤其涉及一种文档问答的方法、装置、电子设备及存储介质。
技术介绍
1、目前,基于大模型的文档问答,一般是通过上传文档,解析文档内容,客户提出文档相关的问题,大模型作答等流程进行的。由于大模型的能力有限,目前无法处理具备太多噪声的召回片段,从而导致出现通过大模型进行文档问答准确率较低的问题。
技术实现思路
1、本申请实施例提供一种文档问答的方法、装置、电子设备及存储介质,以解决现有技术中通过大模型进行文档问答准确率较低的问题。
2、为了解决上述技术问题,本申请是这样实现的:
3、第一方面,本申请实施例提供了一种文档问答的方法。该方法包括:
4、对目标文档进行解析,得到n个文档切片,所述n为正整数;
5、根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,所述m为小于或等于所述n的正整数;
6、在所述m个第一相似度中确定x个第二相似度,所述x为小于或等于所述m的正整数;
7、将x个第二相似度所对应的x个文档切片和所述目标问题输入到目标大模型中进行文档问答,得到问答结果。
8、可选的,所述对目标文档进行解析,得到n个文档切片,包括:
9、将所述目标文档输入到文档解析模型进行识别,得到多个文本内容,每个所述文本内容对应一个类别标签,所述类别标签用于指示所述文本内容的类别;
10、根据所述类别标签对所述多个文本内容进行归类,得到多个文本页;
12、可选的,所述根据所述类别标签对所述多个文本内容进行归类,得到多个文本页,包括:
13、根据所述类别标签对所述多个文本内容进行归类,得到多个目标文本页;
14、基于目标内容对所述多个文本页进行内容填充,得到所述多个文本页,所述目标内容包括第一目标字段和第二目标字段,所述第一目标字段为当前文本页的前一页的部分字段,所述第二目标字段为当前文本页的后一页的部分字段。
15、可选的,所述根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,包括:
16、基于所述目标问题生成多个相似目标问题;
17、根据所述多个相似目标问题对所述n个文档切片进行相似度计算,得到n个第一相似度,所述n个第一相似度对应n个目标分数;
18、对所述n个目标分数进行筛选,确定m个目标分数;
19、根据所述m个目标分数确定所述m个第一相似度。
20、可选的,所述根据所述多个相似目标问题对所述n个文档切片进行相似度计算,得到n个第一相似度,包括:
21、根据所述多个相似目标问题对所述n个文档切片进行检索相似度计算,得到n个检索相似度;
22、根据所述多个相似目标问题对所述n个文档切片进行语义相似度计算,得到n个语义相似度;
23、对所述n个检索相似度和所述n个语义相似度进行加权计算,得到所述n个第一相似度。
24、可选的,所述在所述m个第一相似度中确定x个第二相似度之前,所述方法还包括:
25、基于m个目标分数所述对所述m个第一相似度所对应的m个文档切片进行排序,得到排序后的m个文档切片,所述排序后的述m个文档切片中每个文档切片对应有单独的排序序号;
26、获取所述目标大模型的输入阈值;
27、根据所述排序序号对排序后的所述m个文档切片进行遍历,在第一文档切片满足目标条件的情况下,结束遍历,所述第一文档切片为排序后的所述m个文档切片中当前遍历的文档切片,所述目标条件为所述第一文档切片的字数大于所述输入阈值,或者,所述目标条件为所述第一文档切片的第一评分值与第二评分值的比值小于比例阈值,所述第一评分值为第一文档切片的评分值与第二文档切片的评分值之差,所述第二评分值为所述第一文档切片的评分值,所述第二文档切片为所述第一文档切片的后一个文档切片;
28、将所述第一文档切片对应的排序序号确定为所述x。
29、可选的,所述将x个第二相似度所对应的x个文档切片和所述目标问题输入到目标大模型中进行文档问答,得到问答结果,包括:
30、根据所述目标问题生成目标指令;
31、将x个第二相似度所对应的x个文档切片、所述目标问题和所述目标指令输入到目标大模型中进行文档问答,得到问答结果。
32、第二方面,本申请实施例还提供一种文档问答的装置。该文档问答的装置包括:
33、解析模块,用于对目标文档进行解析,得到n个文档切片,所述n为正整数;
34、计算模块,用于根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,所述m为小于或等于所述n的正整数;
35、确定模块,用于在所述m个第一相似度中确定x个第二相似度,所述x为小于或等于所述m的正整数;
36、输入模块,用于将x个第二相似度所对应的x个文档切片和所述目标问题输入到目标大模型中进行文档问答,得到问答结果。
37、第三方面,本申请实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文档问答的方法的步骤。
38、第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文档问答的方法的步骤。
39、本申请提供了一种文档问答的方法、装置、电子设备及存储介质,该方法包括:对目标文档进行解析,得到n个文档切片,所述n为正整数;根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,所述m为小于或等于所述n的正整数;在所述m个第一相似度中确定x个第二相似度,所述x为小于或等于所述m的正整数;将x个第二相似度所对应的x个文档切片和所述目标问题输入到目标大模型中进行文档问答,得到问答结果。本申请通过对目标文档进行解析得到文档切片,并根据目标问题对文档切片进行相似度计算,从将相似度高对应的文档切片输入到大模型中进行文档问答,从而提高了大模型进行文档问答的准确率。
本文档来自技高网...【技术保护点】
1.一种文档问答的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对目标文档进行解析,得到N个文档切片,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述类别标签对所述多个文本内容进行归类,得到多个文本页,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据目标问题对所述N个文档切片进行相似度计算,得到M个第一相似度,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个相似目标问题对所述N个文档切片进行相似度计算,得到N个第一相似度,包括:
6.根据权利要求4所述的方法,其特征在于,所述在所述M个第一相似度中确定X个第二相似度之前,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述将X个第二相似度所对应的X个文档切片和所述目标问题输入到目标大模型中进行文档问答,得到问答结果,包括:
8.一种文档问答的装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文档问答的方法的步骤。
...【技术特征摘要】
1.一种文档问答的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对目标文档进行解析,得到n个文档切片,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述类别标签对所述多个文本内容进行归类,得到多个文本页,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据目标问题对所述n个文档切片进行相似度计算,得到m个第一相似度,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个相似目标问题对所述n个文档切片进行相似度计算,得到n个第一相似度,包括:
6.根据权利要求4所述的方法,其特征在于,所述在所述m个第一相似度中确定x个...
【专利技术属性】
技术研发人员:崔明飞,于皓,罗华刚,王展,
申请(专利权)人:北京中关村科金技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。