超长文本问答数据的获取方法及大语言模型训练方法技术

技术编号：41186046 阅读：4 留言：0更新日期：2024-05-07 22:18

本申请涉及数据处理技术领域，具体提供一种超长文本问答数据的获取方法及大语言模型训练方法，旨在解决如何获取超长文本的问答数据的技术问题。为此目的，本申请的超长文本问答数据的获取包括：获取原始问答数据的相似文档；其中，原始问答数据至少包括目标文档；获取相似文档中的目标混淆段落；基于目标混淆段落和目标文档得到超长文本；基于原始问答数据、超长文本和预设提示词得到超长文本问答数据。通过上述实施方式，能够以现有的原始问答数据为基础，自动化获取超长文本问答数据，适用性较强、门槛较低，并且不需要人工干预，降低了人工成本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，具体涉及一种超长文本问答数据的获取方法及大语言模型训练方法。

技术介绍

1、随着大型语言模型(large language model，llm)的快速发展，越来越多的研究人员对llm在不同领域的应用进行了探索。在诸如法律、金融、政务等特定领域，经常需要处理几十页甚至几百页的报告或文章，进而完成基于长文档的问答任务等，甚至需要同时参考几十篇文档，完成多文档的关键信息总结任务等。因此，超长文本的建模能力是大语言模型能够在这些领域中顺利应用的前提条件。

2、大语言模型长文本建模的难点除了计算资源和训练方法以外，超长文本的问答训练数据构造也是一个急需解决的问题。一般来说，超长文本的问答数据指的是给定一段超长的文本，基于该文本提出一个或者多个问题，并给出相应的答案，答案出自给定的文本，当问题范围超出文本内容时，应给出拒绝回答的答案。目前常见的开源问答数据大都在4k长度以内，如dureader、cmrc2018等，而超长文本的问答数据长度会远大于4k，常用的一些长度有8k、12k、16k、32k、100k等。此外，对超长文本的标注难度和成本也比较高，而问答数据的质量又会直接影响模型的效果。因此，获取超长文本的问答数据是一个至关重要的问题。

3、相应地，本领域需要一种新的技术方案来解决上述问题。

技术实现思路

1、为了克服上述缺陷，提出了本申请，以提供解决或至少部分地解决如何获取超长文本的问答数据的技术问题的超长文本问答数据的获取方法及大语言模型训练方法。

2、在第一方面，提供一种超长文本问答数据的获取方法，所述方法包括：

3、获取原始问答数据的相似文档；其中，所述原始问答数据至少包括目标文档；

4、获取所述相似文档中的目标混淆段落；

5、基于所述目标混淆段落和所述目标文档得到超长文本；

6、基于所述原始问答数据、所述超长文本和预设提示词得到超长文本问答数据。

7、在上述超长文本问答数据的获取方法的一个技术方案中，所述原始问答数据还包括问题和答案；所述基于所述原始问答数据、所述超长文本和预设提示词得到超长文本问答数据包括：

8、获取所述预设提示词；

9、将所述问题、所述答案、所述超长文本和所述预设提示词进行组合，得到所述超长文本问答数据。

10、在上述超长文本问答数据的获取方法的一个技术方案中，所述方法还包括：

11、获取超出所述超长文本范围的其他问题；

12、获取所述其他问题的固定答案；

13、基于所述其他问题和所述固定答案得到预设比例的无法回答样本；

14、将所述无法回答样本添加至所述超长文本问答数据。

15、在上述超长文本问答数据的获取方法的一个技术方案中，所述基于所述目标混淆段落和所述目标文档得到超长文本包括：

16、获取目标混淆文档的长度和段落个数；

17、基于所述长度和段落个数对所述目标混淆段落进行拼接，得到所述目标混淆文档；

18、将所述目标文档随机插入所述目标混淆文档，得到预设长度的超长文本。

19、在上述超长文本问答数据的获取方法的一个技术方案中，所述获取原始问答数据的相似文档包括：

20、获取候选文档列表；

21、对所述候选文档列表中的每个文档进行分词；

22、获取所述分词后的每个文档与所述问题的相似性；

23、基于所述相似性召回第一预设数量相似文档。

24、在上述超长文本问答数据的获取方法的一个技术方案中，所述获取所述相似文档中的目标混淆段落包括：

25、对所有所述相似文档进行段落划分，得到候选段落列表；

26、对所述候选段落列表进行混淆段落召回，得到第二预设数量的目标混淆段落。

27、在上述超长文本问答数据的获取方法的一个技术方案中，所述对所述候选段落列表进行混淆段落召回，得到第二预设数量的所述目标混淆段落包括：

28、对所述问题和所述候选段落列表中的每个段落进行向量编码，得到问题向量和每个段落的向量；

29、获取所述每个段落的向量与所述问题向量的相似度；

30、基于所述相似度获取所述第二预设数量的目标混淆段落。

31、在第二方面，本申请提供一种大语言模型训练方法，所述方法包括：

32、基于上述超长文本问答数据的获取方法的技术方案中任一项技术方案所述的超长文本问答数据的获取方法获取训练数据；

33、基于所述训练数据对大语言模型进行训练；

34、当所述大语言模型收敛至预设误差值时，完成所述大语言模型训练。

35、在第三方面，提供一种电子设备，该电子设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述超长文本问答数据的获取方法的技术方案中任一项技术方案所述的超长文本问答数据的获取方法，或上述大语言模型训练方法的技术方案所述的大语言模型训练方法。

36、在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述超长文本问答数据的获取方法的技术方案中任一项技术方案所述的超长文本问答数据的获取方法，或上述大语言模型训练方法的技术方案所述的大语言模型训练方法。

37、本申请上述一个或多个技术方案，至少具有如下一种或多种

38、有益效果：

39、在实施本申请的技术方案中，首先获取原始问答数据的相似文档，其中，原始问答数据至少包括目标文档，然后获取相似文档中的目标混淆段落，并基于目标混淆段落和目标文档得到超长文本，最后基于原始问答数据、超长文本和预设提示词得到超长文本问答数据。通过上述实施方式，能够以现有的原始问答数据为基础，自动化获取超长文本问答数据，适用性较强、门槛较低，并且不需要人工干预，降低了人工成本。

40、进一步地，通过调节相似文档的数量、目标混淆段落的数量、目标混淆文档的长度和段落个数，可以灵活控制不同数据的比例，生成不同长度版本的超长文本问答数据，能够用于对大语言模型的超长文本建模能力进行训练。此外，通过添加一定比例的无法回答样本，能够使训练好的大语言模型更好地回答超出给定文本范围的问题，在实际应用场景中泛化性更强。

本文档来自技高网...

【技术保护点】

1.一种超长文本问答数据的获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的超长文本问答数据的获取方法，其特征在于，所述原始问答数据还包括问题和答案；所述基于所述原始问答数据、所述超长文本和预设提示词得到超长文本问答数据包括：

3.根据权利要求2所述的超长文本问答数据的获取方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的超长文本问答数据的获取方法，其特征在于，所述基于所述目标混淆段落和所述目标文档得到超长文本包括：

5.根据权利要求2所述的超长文本问答数据的获取方法，其特征在于，所述获取原始问答数据的相似文档包括：

6.根据权利要求2至5中任一项所述的超长文本问答数据的获取方法，其特征在于，所述获取所述相似文档中的目标混淆段落包括：

7.根据权利要求6所述的超长文本问答数据的获取方法，其特征在于，所述对所述候选段落列表进行混淆段落召回，得到第二预设数量的所述目标混淆段落包括：

8.一种大语言模型训练方法，其特征在于，所述方法包括：

9.一种电子设备，包括处理器和

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的超长文本问答数据的获取方法或权利要求8所述的大语言模型训练方法。

...

【技术特征摘要】

1.一种超长文本问答数据的获取方法，其特征在于，所述方法包括：

3.根据权利要求2所述的超长文本问答数据的获取方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的超长文本问答数据的获取方法，其特征在于，所述基于所述目标混淆段落和所述目标文档得到超长文本包括：

5.根据权利要求2所述的超长文本问答数据的获取方法，其特征在于，所述获取原始问答数据的相似文档包括：

6.根据权利要求2至5中任一项所述的超长文本问答数据的获取方法，其特征在于，所述获取所述相似文...

【专利技术属性】
技术研发人员：段丹丹，晏超，刘盛中，
申请(专利权)人：重庆中科云从科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人