数据生成方法、装置、设备及存储介质制造方法及图纸

技术编号:46601532 阅读:2 留言:0更新日期:2025-10-10 21:32
本申请公开了数据生成方法、装置、设备及存储介质,该方法包括:步骤1:对预设的非结构化数据进行自动化处理,生成结构化数据;步骤2:基于结构化数据及预设的角色提示生成对话样本;步骤3:通过预设的质量检测规则分别对结构化数据和对话样本进行评估并生成反馈指令;步骤4:基于反馈指令对结构化数据和/或对话样本的生成策略进行优化;根据优化后的结构化数据生成策略和/或对话样本生成策略迭代执行所述步骤1~4直至评估结构化数据和对话样本均合格,输出优化后的第一对话样本。本申请通过自动化流程替代人工标注、通过实时反馈减少无效生成、通过迭代优化保障数据质量,有效解决了传统方法中数据稀缺、标注成本高及质量波动的问题。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及数据生成方法、装置、设备及存储介质


技术介绍

1、随着人工智能技术的快速发展,大模型微调技术已广泛应用于各类问答系统及专业领域的ai模型开发,尤其在医学、金融、法律、教育等垂直领域的智能化升级中发挥重要作用,然而,该技术在落地过程中面临高质量标注数据稀缺的问题。

2、目前,大部分ai模型训练依赖于开源数据集或人工标注数据,然而,开源数据集虽具有获取成本低、覆盖范围广的特点,但普遍存在数据分布与特定专业场景需求不匹配、标注精度不足等问题,难以直接适配垂直领域的精细化任务;人工标注数据可针对性满足场景需求,但存在标注成本高昂、周期冗长、标注人员专业能力差异导致数据质量稳定性差等缺陷。上述数据来源的局限性,将导致专业领域ai模型构建面临数据获取困难与开发效率低下的问题。


技术实现思路

1、本申请的主要目的在于提供数据生成方法、装置、设备及存储介质,旨在解决高质量数据稀缺、标注成本高和数据质量难以保证的技术问题。

2、为实现上述目的,本申请提供一种数据生成方法,所本文档来自技高网...

【技术保护点】

1.一种数据生成方法,其特征在于,所述数据生成方法包括:

2.如权利要求1所述的数据生成方法,其特征在于,所述输出优化后的第一对话样本之后包括:

3.如权利要求1所述的数据生成方法,其特征在于,所述基于所述结构化数据及预设的角色提示生成对话样本的步骤包括:

4.如权利要求3所述的数据生成方法,其特征在于,所述基于所述结构化数据及预设的角色提示,调用预设的问询智能体和答复智能体通过对抗的方式生成对话文本的步骤包括:

5.如权利要求4所述的数据生成方法,其特征在于,所述问题文本包括正样本和负样本,所述利用所述问询智能体基于所述结构化数据生成问题...

【技术特征摘要】

1.一种数据生成方法,其特征在于,所述数据生成方法包括:

2.如权利要求1所述的数据生成方法,其特征在于,所述输出优化后的第一对话样本之后包括:

3.如权利要求1所述的数据生成方法,其特征在于,所述基于所述结构化数据及预设的角色提示生成对话样本的步骤包括:

4.如权利要求3所述的数据生成方法,其特征在于,所述基于所述结构化数据及预设的角色提示,调用预设的问询智能体和答复智能体通过对抗的方式生成对话文本的步骤包括:

5.如权利要求4所述的数据生成方法,其特征在于,所述问题文本包括正样本和负样本,所述利用所述问询智能体基于所述结构化数据生成问题文本的步骤包括:

6.如权利要求5所述的数据生成方法,其特征在于,所述将所述正样本...

【专利技术属性】
技术研发人员:赵晨阳陈柯皓
申请(专利权)人:矩阵起源深圳信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1