大模型数据生成方法、装置、设备、介质及产品制造方法及图纸

技术编号:42769643 阅读:33 留言:0更新日期:2024-09-21 00:34
本发明专利技术实施例提供了一种大模型数据生成方法、装置、设备、介质及产品,包括:确定待生成问题对应的推理跳数;根据推理跳数在预先构建的文档块图模型中确定待提取文档块;根据待提取文档块构建数据生成智能体,数据生成智能体包提示词;将提示词输入至预设大语言模型,以使预设大语言模型生成提示词对应的生成数据。通过本发明专利技术实施例通过确定待生成问题的推理跳数,精准定位预先构建的文档块图模型中的相关文档块,进而构建包含提示词的数据生成智能体,并将提示词输入至预设大语言模型,以生成高质量的生成数据。

【技术实现步骤摘要】

本专利技术涉及大模型,特别涉及一种大模型数据生成方法、装置、设备、介质及产品


技术介绍

1、大型语言模型是一种以深度学习网络为基础的人工智能模型,面向自然语言处理领域,因为模型参数量一般较大而被称为大型语言模型,其参数量一般超过10亿。大型语言模型在多个任务上取得了不俗的效果,成为当下研究的热点,近年来,数据生成技术在各个领域应用广泛,譬如在数据库测试领域中,经常会使用生成的数据作为数据库内容。

2、相关技术中,为了解决上述问题,一般需要两个模型,且两个模型在生成不同领域的评测问答对数据前,都需要重新训练,成本高、训练难度大易导致生成质量差。


技术实现思路

1、本专利技术实施例的目的在于提供一种大模型数据生成方法、装置、设备、介质及产品,具体技术方案如下:

2、在本专利技术实施的第一方面,首先提供了一种大模型数据生成方法,所述方法包括:确定待生成问题对应的推理跳数;

3、根据所述推理跳数在预先构建的文档块图模型中确定待提取文档块;

4、根据所述待提取文档块构建本文档来自技高网...

【技术保护点】

1.一种大模型数据生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述待提取文档块构建数据生成智能体包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述待提取文档块和提示词模板构建数据生成智能体包括:

4.根据权利要求2所述的方法,其特征在于,在所述根据所述待提取文档块和提示词模板构建数据生成智能体的步骤之前,所述方法包括:

5.根据权利要求4所述的方法,其特征在于,所述按照预设规则设置提示词模板包括:

6.根据权利要求4所述的方法,其特征在于,所述按照预设规则设置提示词模板包括...

【技术特征摘要】

1.一种大模型数据生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述待提取文档块构建数据生成智能体包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述待提取文档块和提示词模板构建数据生成智能体包括:

4.根据权利要求2所述的方法,其特征在于,在所述根据所述待提取文档块和提示词模板构建数据生成智能体的步骤之前,所述方法包括:

5.根据权利要求4所述的方法,其特征在于,所述按照预设规则设置提示词模板包括:

6.根据权利要求4所述的方法,其特征在于,所述按照预设规则设置提示词模板包括:

7.根据权利要求4所述的方法,其特征在于,所述按照预设规则设置提示词模板包括:

8.根据权利要求1所述的方法,其特征在于,在所述确定待生成问题对应的推理跳数的步骤之前,所述方法包括:

9.根据权利要求8所述的方法,其特征在于,所述根据预设的数据模型对预设文档进行结构化处理,生成标准文档包括:

10.根据权利要求8所述的方法,其特征在于,所述对标准文档进行分块处理,得到文档块包括:

11.根据权利要求8所述的方法,其特征在于,所述对标准文档进行层次分块处理,得到若干个文档分块包括:

12.根据权利要求11所述的方法,其特征在于,所述若所述第二标题文档分块大于所述预设值,则按照预设...

【专利技术属性】
技术研发人员:汤飞张坤逄立业
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1