构建代码样本的方法、装置、设备和存储介质制造方法及图纸

技术编号:43458300 阅读:16 留言:0更新日期:2024-11-27 12:57
本公开的实施例涉及构建代码样本的方法、装置、设备和存储介质。在此提出的方法包括:获取参考数据集,参考数据集包括多个参考代码单元和对应的多个参考引导项;基于多个参考代码单元的属性信息,从多个参考代码单元中确定一组关联的参考代码单元;基于一组关联的参考代码单元,构建目标代码单元;以及基于目标代码单元和目标引导项,构建目标样本,目标引导项是基于一组关联的参考代码单元所对应的一组参考引导项所确定。以此方式,本公开的实施例能够高效地构建功能更为复杂的代码样本,并降低构建代码样本的成本。

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机领域,特别地涉及构建代码样本的方法、装置、设备和计算机可读存储介质。


技术介绍

1、随着人工智能技术的快速发展,生成式人工智能技术被广泛应用于各种系统中。例如,人们可以利用生成式人工智能技术来生成新的代码、辅助编码代码等。对于生成式人工智能技术而言,人们需要利用大量的代码样本来预训练模型或者微调模型。


技术实现思路

1、在本公开的第一方面,提供了一种构建代码样本的方法。该方法包括:获取参考数据集,参考数据集包括多个参考代码单元和对应的多个参考引导项;基于多个参考代码单元的属性信息,从多个参考代码单元中确定一组关联的参考代码单元;基于一组关联的参考代码单元,构建目标代码单元;以及基于目标代码单元和目标引导项,构建目标样本,目标引导项是基于一组关联的参考代码单元所对应的一组参考引导项所确定。

2、在本公开的第二方面,提供了一种用于构建代码样本的装置。该装置包括:获取模块,被配置为获取参考数据集,参考数据集包括多个参考代码单元和对应的多个参考引导项;确定模块,被配置为基于本文档来自技高网...

【技术保护点】

1.一种构建代码样本的方法,包括:

2.根据权利要求1所述的方法,其中基于所述多个参考代码单元的属性信息从所述多个参考代码单元中确定一组关联的参考代码单元包括:

3.根据权利要求2所述的方法,其中基于所述多个参考代码单元的输入参数和/或输出参数从所述多个参考代码单元中确定所述一组关联的参考代码单元包括:

4.根据权利要求2所述的方法,其中所述一组关联的参考单代码单元的数目大于预设数目。

5.根据权利要求1所述的方法,其中基于所述一组关联的参考代码单元构建目标代码单元包括:

6.根据权利要求5所述的方法,其中所述关联性至少指示第一...

【技术特征摘要】

1.一种构建代码样本的方法,包括:

2.根据权利要求1所述的方法,其中基于所述多个参考代码单元的属性信息从所述多个参考代码单元中确定一组关联的参考代码单元包括:

3.根据权利要求2所述的方法,其中基于所述多个参考代码单元的输入参数和/或输出参数从所述多个参考代码单元中确定所述一组关联的参考代码单元包括:

4.根据权利要求2所述的方法,其中所述一组关联的参考单代码单元的数目大于预设数目。

5.根据权利要求1所述的方法,其中基于所述一组关联的参考代码单元构建目标代码单元包括:

6.根据权利要求5所述的方法,其中所述关联性至少指示第一代码单元的输出参数类型与第二代码单元的输入参数类型匹配,并且基于所述一组关联的参考代码单元之间的关联性组合所述一组关联的参考代码单元包括:

【专利技术属性】
技术研发人员:陈杰
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1