数据生成方法、装置以及系统制造方法及图纸

技术编号:45996945 阅读:6 留言:0更新日期:2025-08-01 18:57
本说明书实施例提供数据生成方法、装置以及系统,其中所述数据生成方法包括:获取数据生成任务,数据生成任务携带数据集,数据集包括多个代码数据对,代码数据对包括指令描述和对应的代码;从多个代码数据对中,抽取预设数量的参考代码数据对;将预设数量的参考代码数据对输入数据生成模型,获得数据生成任务对应的目标代码数据对,目标代码数据对包括目标指令描述和对应的目标代码。通过从数据集中抽取预设数量的参考代码数据对,生成目标代码数据对,提高了生成数据的效率,实现了生成代码数据对过程中成本的降低。

【技术实现步骤摘要】

本说明书实施例涉及计算机,特别涉及一种数据生成方法、装置以及系统


技术介绍

1、在当前的软件开发领域,代码大模型已经成为许多企业进行智能化的核心工具,代码大模型是专门用于理解和生成代码的模型,通常需要利用数百万个代码数据集进行参数调整。

2、在生成该数百万个代码数据集的过程中,由于数据量庞大,传统的依赖人力对代码数据进行标注的方法会导致出现人力、时间和空间成本高等问题,已经不能满足实际需求,因此,亟需一种高效生成数据的方法,以降低人力、时间和空间等的成本。


技术实现思路

1、有鉴于此,本说明书实施例提供了一种数据生成方法。本说明书一个或者多个实施例同时涉及一种数据生成装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序产品,以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面,提供了一种数据生成方法,包括:获取数据生成任务,其中,所述数据生成任务携带数据集,所述数据集包括多个代码数据对,所述代码数据对包括指令描述和对应的代码;从所述多个代码数据对中,抽取预设数量本文档来自技高网...

【技术保护点】

1.一种数据生成方法,包括:

2.根据权利要求1所述的方法,所述数据生成任务还携带第一提示语句,所述第一提示语句用于提示所述数据生成模型生成代码数据对;

3.根据权利要求1或2所述的方法,在所述将所述预设数量的参考代码数据对输入数据生成模型,获得所述数据生成任务对应的目标代码数据对之后,还包括:

4.根据权利要求3所述的方法,所述基于所述测试输入参数和所述预期输出参数,对所述至少一个单元测试进行测试执行,确定所述目标代码数据对的测试执行结果,包括:

5.根据权利要求3所述的方法,在所述基于所述测试输入参数和所述预期输出参数,对所述至少一个单...

【技术特征摘要】

1.一种数据生成方法,包括:

2.根据权利要求1所述的方法,所述数据生成任务还携带第一提示语句,所述第一提示语句用于提示所述数据生成模型生成代码数据对;

3.根据权利要求1或2所述的方法,在所述将所述预设数量的参考代码数据对输入数据生成模型,获得所述数据生成任务对应的目标代码数据对之后,还包括:

4.根据权利要求3所述的方法,所述基于所述测试输入参数和所述预期输出参数,对所述至少一个单元测试进行测试执行,确定所述目标代码数据对的测试执行结果,包括:

5.根据权利要求3所述的方法,在所述基于所述测试输入参数和所述预期输出参数,对所述至少一个单元测试进行测试执行,确定所述目标代码数据对的测试执行结果之后,还包括:

6.根据权利要求5所述的方法,在所述将所述目标代码数据对和所述第三提示语句输入至所述数据生成模型,获得修复代码数据对之后,还包括:

7.根...

【专利技术属性】
技术研发人员:惠彬原杨家玺杨健林俊旸周畅
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1