【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及数据生成方法、装置、设备及存储介质。
技术介绍
1、随着人工智能技术的快速发展,大模型微调技术已广泛应用于各类问答系统及专业领域的ai模型开发,尤其在医学、金融、法律、教育等垂直领域的智能化升级中发挥重要作用,然而,该技术在落地过程中面临高质量标注数据稀缺的问题。
2、目前,大部分ai模型训练依赖于开源数据集或人工标注数据,然而,开源数据集虽具有获取成本低、覆盖范围广的特点,但普遍存在数据分布与特定专业场景需求不匹配、标注精度不足等问题,难以直接适配垂直领域的精细化任务;人工标注数据可针对性满足场景需求,但存在标注成本高昂、周期冗长、标注人员专业能力差异导致数据质量稳定性差等缺陷。上述数据来源的局限性,将导致专业领域ai模型构建面临数据获取困难与开发效率低下的问题。
技术实现思路
1、本申请的主要目的在于提供数据生成方法、装置、设备及存储介质,旨在解决高质量数据稀缺、标注成本高和数据质量难以保证的技术问题。
2、为实现上述目的,本申请提供
...【技术保护点】
1.一种数据生成方法,其特征在于,所述数据生成方法包括:
2.如权利要求1所述的数据生成方法,其特征在于,所述输出优化后的第一对话样本之后包括:
3.如权利要求1所述的数据生成方法,其特征在于,所述基于所述结构化数据及预设的角色提示生成对话样本的步骤包括:
4.如权利要求3所述的数据生成方法,其特征在于,所述基于所述结构化数据及预设的角色提示,调用预设的问询智能体和答复智能体通过对抗的方式生成对话文本的步骤包括:
5.如权利要求4所述的数据生成方法,其特征在于,所述问题文本包括正样本和负样本,所述利用所述问询智能体基于所
...【技术特征摘要】
1.一种数据生成方法,其特征在于,所述数据生成方法包括:
2.如权利要求1所述的数据生成方法,其特征在于,所述输出优化后的第一对话样本之后包括:
3.如权利要求1所述的数据生成方法,其特征在于,所述基于所述结构化数据及预设的角色提示生成对话样本的步骤包括:
4.如权利要求3所述的数据生成方法,其特征在于,所述基于所述结构化数据及预设的角色提示,调用预设的问询智能体和答复智能体通过对抗的方式生成对话文本的步骤包括:
5.如权利要求4所述的数据生成方法,其特征在于,所述问题文本包括正样本和负样本,所述利用所述问询智能体基于所述结构化数据生成问题文本的步骤包括:
6.如权利要求5所述的数据生成方法,其特征在于,所述将所述正样本...
【专利技术属性】
技术研发人员:赵晨阳,陈柯皓,
申请(专利权)人:矩阵起源深圳信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。