一种基于大语言模型的问答数据构建方法及装置制造方法及图纸

技术编号：40486854 阅读：8 留言：0更新日期：2024-02-26 19:18

本说明书公开了一种基于大语言模型的问答数据构建方法及装置，可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材，而后，可以根据文本素材，对基础三元组进行补充，得到三元组集合；针对三元组集合中的每个三元组，可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落，以得到多源知识数据。而后，可以根据多源知识数据，生成问答数据，可以对生成的问答数据进行标注，从而通过半监督的方式训练识别模型，以通过识别模型从问答数据中筛选出有效的问答数据，筛选出的有效的问答数据可以用于对大语言模型进行训练或微调，从而本方法能够提到生成问答数据的效率和有效性。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及知识图谱、深度学习领域，尤其涉及一种基于大语言模型的问答数据构建方法及装置。

技术介绍

1、问答数据是指包含问题和对应答案的数据集合，通常用于训练和评估问答系统、对话系统和自然语言处理模型等。在大模型背景下，通过构建领域特定的数据进行模型微调，可以帮助大模型更好地理解领域内的术语、概念和问题，从而提供更准确的答案。

2、其中，在现有技术中问答数据生成的知识来源单一。并且，现有技术在考虑生成数据质量不稳定性方面存在不足，可能生成包含错误、模糊或不相关信息的问答数据，尚未进行额外的审核和筛选工作。

3、因此，本专利技术提出了一种基于大语言模型的问答数据构建方法，以实现高质量和可信度的问答数据自动生成。此外，所生成的数据还为后续问答模型的微调、faq问答系统的训练和性能评估提供了坚实的数据基础，推动了问答系统在实际应用中的有效应用与发展。

技术实现思路

1、本说明书提供一种基于大语言模型的问答数据构建方法及装置，以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供了一种基于大语言模型的问答数据构建方法，包括：

4、从预设的知识图谱中提取出基础三元组，以及从预设文档库中提取出文本素材，其中，三元组用于表示两个之间存在关系的实体以及两个实体之间的关系的组合，所述文本素材中包含若干文本段落；

5、根据所述文本素材，对所述基础三元组进行补充，得到三元组集合；针对所述三元组集合中的

6、根据所述多源知识数据，生成问答数据；

7、选取出若干问答数据，并根据预设规则，对所述若干问答数据的有效性进行标注，得到训练样本，通过所述训练样本对预设的识别模型进行训练，并通过训练后的识别模型继续对未标注的问答数据进行标注，以得到新的训练样本，以及通过新的训练样本继续对所述识别模型进行训练，直到所述识别模型收敛，以通过所述识别模型从未标注的问答数据中筛选出有效的问答数据，筛选出的有效的问答数据用于对大语言模型进行训练。

8、可选地，从预设的知识图谱中提取出基础三元组，具体包括：

9、从所述知识图谱中随机选取出初始实体，执行查询，以获取与所述初始实体相关的三元组信息，并从中提取目标实体，以提取的目标实体为新的初始实体，再次执行查询，继续获取与所述初始实体相关的三元组信息，直到满足设定的停止条件停止，以得到基础三元组。

10、可选地，根据所述文本素材，对所述基础三元组进行补充，得到三元组集合，具体包括：

11、从所述文本素材中确定出补充三元组；

12、针对所述补充三元组和所述基础三元组进行去重，得到去重后的三元组；

13、将所述去重后的三元组中属于所述补充三元组的部分三元组进行随机采样，将采样得到的三元组与所述去重后的三元组中属于所述基础三元组的部分三元组合并，得到所述三元组集合。

14、可选地，根据所述多源知识数据，生成问答数据，具体包括：

15、确定预设的题型模板；

16、根据所述每个三元组，每个三元组的关联三元组和关联文本段落，对预设的题型模板进行填充，得到问答数据。

17、可选地，预设的题型模板包括：自由文本题型模板、选择型题型模板、判断型题型模板和截取型题型模板。

18、可选地，根据所述每个三元组，每个三元组的关联三元组和关联文本段落，对预设的题型模板进行填充，得到问答数据，具体包括：

19、将所述多源知识数据和针对所述预设的题型模板的提示词与格式要求信息进行拼接，得到拼接后数据；

20、将所述拼接后数据输入到预先训练的大语言模型中，得到所述大语言模型输出的问答数据，筛选出的有效的问答数据用于对所述大语言模型进行微调训练。

21、可选地，根据预设规则，对所述若干问答数据的有效性进行标注，得到训练样本，具体包括：

22、针对每个问答数据，分别对该问答数据中的问题的有效性和答案的有效性进行标注；

23、若该问答数据中问题与答案均具备有效性，将该问答数据作为正样本，否则将该问答数据作为负样本。

24、本说明书提供了一种基于大语言模型的问答数据构建装置，包括：

25、数据提取模块，用于从预设的知识图谱中提取出基础三元组，以及从预设文档库中提取出文本素材，其中，三元组用于表示两个之间存在关系的实体以及两个实体之间的关系的组合，所述文本素材中包含若干文本段落；

26、知识检索模块，用于根据所述文本素材，对所述基础三元组进行补充，得到三元组集合；针对所述三元组集合中的每个三元组，确定该三元组的关联三元组以及从所述文本素材中确定出该三元组的关联文本段落，并将所述三元组集合中的每个三元组，每个三元组的关联三元组和每个三元组的关联文本段落，作为多源知识数据；

27、生成模块，用于根据所述多源知识数据，生成问答数据；

28、筛选模块，用于选取出若干问答数据，并根据预设规则，对所述若干问答数据的有效性进行标注，得到训练样本，通过所述训练样本对预设的识别模型进行训练，并通过训练后的识别模型继续对未标注的问答数据进行标注，以得到新的训练样本，以及通过新的训练样本继续对所述识别模型进行训练，直到所述识别模型收敛，以通过所述识别模型从未标注的问答数据中筛选出有效的问答数据，筛选出的有效的问答数据用于对大语言模型进行训练。

29、本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于大语言模型的问答数据构建方法。

30、本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于大语言模型的问答数据构建方法。

31、本说明书采用的上述至少一个技术方案能够达到以下有益效果：

32、从上述一种基于大语言模型的问答数据构建方法中可以看出，可以从预设的知识图谱中提取出基础三元组，以及从预设文档库中提取出文本素材，其中，三元组用于表示两个之间存在关系的实体以及两个实体之间的关系的组合，所述文本素材中包含若干文本段落；而后，可以根据文本素材，对基础三元组进行补充，得到三元组集合；针对三元组集合中的每个三元组，确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落，并将三元组集合中的每个三元组，每个三元组的关联三元组和每个三元组的关联文本段落，作为多源知识数据。而后，根据多源知识数据，生成问答数据，选取出若干问答数据，并根据预设规则，对若干问答数据的有效性进行标注，得到训练样本，通过训练样本对预设的识别模型进行训练，并通过训练后的识别本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的问答数据构建方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，从预设的知识图谱中提取出基础三元组，具体包括：

3.如权利要求1所述的方法，其特征在于，根据所述文本素材，对所述基础三元组进行补充，得到三元组集合，具体包括：

4.如权利要求1所述的方法，其特征在于，根据所述多源知识数据，生成问答数据，具体包括：

5.如权利要求4所述的方法，其特征在于，所述预设的题型包括：自由文本题型、选择型题型、判断型题型和截取型题型。

6.如权利要求4所述的方法，其特征在于，根据所述每个三元组，每个三元组的关联三元组和关联文本段落，对预设的题型模板进行填充，得到问答数据，具体包括：

7.如权利要求1所述的方法，其特征在于，根据预设规则，对所述若干问答数据的有效性进行标注，得到训练样本，具体包括：

8.一种基于大语言模型的问答数据构建装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。

...

【技术特征摘要】

1.一种基于大语言模型的问答数据构建方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，从预设的知识图谱中提取出基础三元组，具体包括：

3.如权利要求1所述的方法，其特征在于，根据所述文本素材，对所述基础三元组进行补充，得到三元组集合，具体包括：

4.如权利要求1所述的方法，其特征在于，根据所述多源知识数据，生成问答数据，具体包括：

5.如权利要求4所述的方法，其特征在于，所述预设的题型包括：自由文本题型、选择型题型、判断型题型和截取型题型。

6.如权利要求4所述的方法，其特征在于，根据所述每个三元组，每个三元组的关联三...

【专利技术属性】
技术研发人员：施佳璐，闫看阳，邵研，王芷霖，洪星芸，段曼妮，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人