System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 问答对抽取方法、装置、电子设备及存储介质制造方法及图纸_技高网

问答对抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40094879 阅读:4 留言:0更新日期:2024-01-23 16:46
本申请提供一种问答对抽取方法、装置、电子设备及存储介质,所述问答对抽取方法,对目标文档进行文档信息解析后,基于文档信息生成用于指示接收指令的对象从目标文档的文本内容中抽取问答对的第一提示指令,然后将该第一提示指令输入预训练的大语言模型,使得该大语言模型从目标文档的文本内容中提取问答对。该方案借助了预训练的大语言模型强大的自然语言处理能力,由该大语言模型执行对目标文档的问答对提取任务,能够提高问答对抽取效率。并且,大语言模型执行问答对抽取任务不受限于特定规则或模板,其问答对抽取更全面、抽取的问答对更丰富。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种问答对抽取方法、装置、电子设备及存储介质


技术介绍

1、问答对数据是智能客服、知识问答等场景下对执行问答任务的模型进行训练和优化的重要数据。

2、常规的获取问答对数据的方案是人工抽取、基于规则的抽取、基于模板的抽取等。这些方案要么效率低下,要么受限于规则和模板的局限性,抽取不全面。因此,需要一种更加高效的问答对抽取方案,从而能够获取更加全面、丰富的问答对数据。


技术实现思路

1、鉴于上述技术现状,本申请提供一种问答对抽取方法、装置、电子设备及存储介质。

2、根据本申请实施例的第一方面,提供了一种问答对抽取方法,包括:

3、对目标文档进行解析,确定所述目标文档的文档信息,所述文档信息包括文档类型、目录、标题、自然段、关键词和图片中的至少一项;

4、基于所述文档信息生成第一提示指令,所述第一提示指令包括所述文档信息中的至少一项、所述目标文档的文本内容以及问答对提取任务的描述信息,所述问答案对提取任务用于基于所述文档信息,从所述目标文档的文档内容中提取问答对;

5、将所述第一提示指令输入预先训练的大语言模型,得到所述大语言模型抽取的问答对。

6、可选的,所述方法还包括:

7、基于预设的问答对评估规则,对所述问答对进行质量评估,确定所述问答对的质量评估结果;

8、根据对所述问答对的质量评估结果,对所述问答对进行优化调整。

9、可选的,基于预设的问答对评估规则,对所述问答对进行质量评估,确定对所述问答对的质量评估结果,以及,根据对所述问答对的质量评估结果,对所述问答对进行优化调整,包括:

10、生成第二提示指令,所述第二提示指令包括预设的问答对评估规则、所述问答对、所述目标文档的文本内容,以及问答对评估任务的描述信息,所述问答对评估任务用于基于所述预设的问答对评估规则,对所述问答对进行质量评估,确定对所述问答对的质量评估结果,并基于所述质量评估结果,对所述问答对进行优化调整;

11、将所述第二提示指令输入所述大语言模型,得到优化调整后的问答对。

12、可选的,基于预设的问答对评估规则,对所述问答对进行质量评估,确定对所述问答对的质量评估结果,包括:

13、度量所述问答对与所述目标文档的文本内容之间的语料关联度、所述目标文档的文本内容的语料完整度,以及所述问答对的问题通俗度,所述问题通俗度用于表示问题的可理解性;

14、基于所述语料关联度、所述语料完整度以及所述问题通俗度,计算得到对所述问答对的质量评估结果。

15、可选的,所述方法还包括:

16、基于所述问答对以及所述目标文档的文本内容,生成与所述问答对中的问题对应的相似问题,所述相似问题与所述问答对中的问题表示相同的问题需求;

17、对所述问答对以及所述相似问题进行规整,得到规整后的问答对。

18、可选的,基于所述问答对以及所述目标文档的文本内容,生成与所述问答对中的问题对应的相似问题,以及,对所述问答对以及所述相似问题进行规整,得到规整后的问答对,包括:

19、生成第三提示指令,所述第三提示指令包括所述问答对、所述目标文档的文本内容,以及问题扩充任务的描述信息,所述问题扩充任务用于基于所述问答对以及所述目标文档的文本内容,生成与所述问答对中的问题对应的相似问题,以及,对所述问答对以及所述相似问题进行规整;

20、将所述第三提示指令输入所述大语言模型,得到规整后的问答对。

21、可选的,所述方法还包括:

22、按照预设的问答对过滤规则,对所述问答对进行过滤。

23、所述文档信息包括关键词,所述方法还包括:

24、计算所述问答对中的问题与各个关键词的关联度;

25、基于所述问答对中的问题与所述各个关键词的关联度,从所述各个关键词中确定出与所述问答对中的问题关联的关键词。

26、可选的,所述文档信息包括自然段;在基于所述文档信息生成第一提示指令之前,所述方法还包括:

27、基于所述目标文档的自然段信息,对所述目标文档的自然段进行切分,得到文档切片;

28、所述目标文档的文本内容,包括所述文档切片。

29、可选的,所述基于所述目标文档的自然段信息,对所述目标文档的自然段进行切分,得到文档切片,包括:

30、基于所述预训练的大语言模型的输入支持的文本长度,将所述目标文档划分为至少一个文档切片;

31、根据各个文档切片中的最后一个文本句的完整性,将所述各个文档切片中的最后一个不完整的文本句,迁移至该文本句所在文档切片的下一个文档切片。

32、可选的,所述第一提示指令包括多个文档切片,以及与每一文档切片对应的问答对提取任务的描述信息;

33、或者,所述第一提示指令的数量为多个,每一所述第一提示指令包括一个文档切片,以及与该文档切片对应的问答对提取任务的描述信息。

34、根据本申请实施例的第二方面,提供了一种问答对抽取装置,包括:

35、文档解析单元,用于对目标文档进行解析,确定所述目标文档的文档信息,所述文档信息包括文档类型、目录、标题、自然段、关键词和图片中的至少一项;

36、指令生成单元,用于基于所述文档信息生成第一提示指令,所述第一提示指令包括所述文档信息中的至少一项、所述目标文档的文本内容以及问答对提取任务的描述信息,所述问答对提取任务用于基于所述文档信息,从所述目标文档的文本内容中提取问答对;

37、信息抽取单元,用于将所述第一提示指令输入预训练的大语言模型,得到所述大语言模型抽取的问答对。

38、根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器和处理器;

39、所述存储器与所述处理器连接,用于存储程序;

40、所述处理器用于通过运行所述存储器中的程序,实现上述问答对抽取方法。

41、根据本申请实施例的第四方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述问答对抽取方法。

42、本申请提出的问答对抽取方法,对目标文档进行文档信息解析后,基于文档信息生成用于指示接收指令的对象从目标文档的文本内容中抽取问答对的第一提示指令,然后将该第一提示指令输入预训练的大语言模型,使得该大语言模型从目标文档的文本内容中提取问答对。

43、该方案借助了预训练的大语言模型强大的自然语言处理能力,由该大语言模型执行对目标文档的问答对提取任务,能够提高问答对抽取效率。并且,大语言模型执行问答对抽取任务不受限于特定规则或模板,其问答对抽取更全面、抽取的问答对更丰富。

44、另一方面,本方案在第一提示指令中嵌入了目标文档的文档信息,使得大语言模型在从目标文档中抽取问答对时,能够参考目标文档的本文档来自技高网...

【技术保护点】

1.一种问答对抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,基于预设的问答对评估规则,对所述问答对进行质量评估,确定对所述问答对的质量评估结果,以及,根据对所述问答对的质量评估结果,对所述问答对进行优化调整,包括:

4.根据权利要求2或3所述的方法,其特征在于,基于预设的问答对评估规则,对所述问答对进行质量评估,确定对所述问答对的质量评估结果,包括:

5.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,基于所述问答对以及所述目标文档的文本内容,生成与所述问答对中的问题对应的相似问题,以及,对所述问答对以及所述相似问题进行规整,得到规整后的问答对,包括:

7.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1至3中任意一项所述的方法,其特征在于,所述文档信息包括关键词,所述方法还包括:

9.根据权利要求1至3中任意一项所述的方法,其特征在于,所述文档信息包括自然段;在基于所述文档信息生成第一提示指令之前,所述方法还包括:

10.根据权利要求9所述的方法,其特征在于,所述基于所述目标文档的自然段信息,对所述目标文档的自然段进行切分,得到文档切片,包括:

11.根据权利要求9所述的方法,其特征在于,所述第一提示指令包括多个文档切片,以及与每一文档切片对应的问答对提取任务的描述信息;

12.一种问答对抽取装置,其特征在于,包括:

13.一种电子设备,其特征在于,包括存储器和处理器;

14.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至11中任意一项所述的问答对抽取方法。

...

【技术特征摘要】

1.一种问答对抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,基于预设的问答对评估规则,对所述问答对进行质量评估,确定对所述问答对的质量评估结果,以及,根据对所述问答对的质量评估结果,对所述问答对进行优化调整,包括:

4.根据权利要求2或3所述的方法,其特征在于,基于预设的问答对评估规则,对所述问答对进行质量评估,确定对所述问答对的质量评估结果,包括:

5.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,基于所述问答对以及所述目标文档的文本内容,生成与所述问答对中的问题对应的相似问题,以及,对所述问答对以及所述相似问题进行规整,得到规整后的问答对,包括:

7.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方...

【专利技术属性】
技术研发人员:吴昆凡年会潘青华王金钖程彩锋
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1