用于训练代码生成模型的方法、装置、及存储介质制造方法及图纸

技术编号:46479216 阅读:7 留言:0更新日期:2025-09-23 22:38
本公开涉及计算机技术领域,包括用于训练代码生成模型的方法、装置、及存储介质。通过从多个原始代码片段中筛选出符合预设的筛选条件的多个代码片段,并将每个代码片段作为每条纯代码数据,组成纯代码数据集;利用大模型生成预设的多种题型的多段编程问题文本和相应的答案代码,将每段编程问题文本和相应的答案代码作为每条文本代码数据,组成文本代码数据集;将纯代码数据集与文本代码数据集混合,基于得到的混合数据集生成训练样本集;利用训练样本集对代码生成模型进行训练,使得代码生成模型能够根据代码片段的一部分或编程问题文本生成完整的代码片段,优化了代码生成模型的训练数据,从而提高模型的代码生成能力。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种用于训练代码生成模型的方法、装置、及存储介质


技术介绍

1、随着人工智能的发展,可以通过训练好的代码生成模型生成代码,辅助开发者工作。比如,通过训练codellama、codegeex等用于代码生成的大型语言模型(large languagemodel,llm)实现辅助编程。这些模型不仅能帮助开发者自动补全代码,还能生成复杂的代码片段、修复代码错误、优化代码性能,甚至根据自然语言描述编写代码。

2、目前,训练代码生成模型的方式一般为:获取互联网和开源社区提供的代码资源,并基于该代码资源训练llm,得到代码生成模型。但是,互联网和开源社区提供的代码资源中,包含了许多低质量、重复或不规范的代码片段,这些代码数据不能有效地帮助模型学习和泛化。此外,代码数据与传统的文本数据有很大差别,例如代码数据具有比自然语言更严格的语法和结构要求并且往往包含大量的重复和无效字符。这使得模型在学习代码数据时面临更大的困难,并且模型学习代码时能力的提升难度比学习自然语言时能力的提升难度更大。


>技术实现思路...

【技术保护点】

1.一种用于训练代码生成模型的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述训练样本集中,基于纯代码数据的样本数量占总样本数量的比例不低于预设的代码比例阈值,以及/或者

3.根据权利要求2所述的方法,其特征在于,所述利用大模型生成预设的多种题型的多段编程问题文本和相应的答案代码,包括:

4.根据权利要求3所述的方法,其特征在于,所述使所述大模型根据所述种子题目集生成所述多种题型的多段编程问题文本和相应的答案代码,包括:

5.根据权利要求2至4中任一项所述的方法,其特征在于,所述基于所述混合数据集生成训练样...

【技术特征摘要】

1.一种用于训练代码生成模型的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述训练样本集中,基于纯代码数据的样本数量占总样本数量的比例不低于预设的代码比例阈值,以及/或者

3.根据权利要求2所述的方法,其特征在于,所述利用大模型生成预设的多种题型的多段编程问题文本和相应的答案代码,包括:

4.根据权利要求3所述的方法,其特征在于,所述使所述大模型根据所述种子题目集生成所述多种题型的多段编程问题文本和相应的答案代码,包括:

5.根据权利要求2至4中任一项所述的方法,其特征在于,所述基于所述混合数据集生成训练样本集,包括:

6.根据权利要求1至4中任一项所述的方法,其特征在于,所述筛选条件包括以下条件中的至少一个条件:

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名
申请(专利权)人:上海无问芯穹智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1