代码处理模型训练方法及代码任务处理方法技术

技术编号:43336736 阅读:24 留言:0更新日期:2024-11-15 20:32
本说明书实施例提供代码处理模型训练方法及代码任务处理方法,其中所述代码处理模型训练方法包括:获取样本代码文档和样本记录文档;解析样本记录文档,分别确定样本代码片段的样本修改片段;针对第一样本代码片段,根据第一样本代码片段和第一样本修改片段,生成第一样本修改片段的样本描述信息;利用样本问题、多个样本代码片段、多个样本修改片段以及多个样本修改片段的样本描述信息,对初始处理模型进行训练,获得代码处理模型。实现自动构造高质量的模型训练数据,提高了模型训练效率。

【技术实现步骤摘要】

本说明书实施例涉及计算机,特别涉及代码处理模型训练方法及代码任务处理方法


技术介绍

1、随着计算机技术的发展,越来越多的工作开始尝试利用大模型进行自动处理,以减少人力成本。在代码领域,尤其是仓库级别的代码场景下,大模型表现得不尽如人意,因此,对大模型进行训练逐渐成为研究重点。在大模型训练过程中,样本集的构造变得举足轻重。

2、目前,通常采用人工标注的方式构建样本集。然而,仓库级别的样本集构建,需要标注者对整个代码非常熟悉了解,这对标注者的要求过高,且标注过程中,需要耗费大量的人力,导致人工标注方式成本高,速度慢,进一步导致模型训练效率极低。因此,亟需一种高效的代码处理模型训练方案。


技术实现思路

1、有鉴于此,本说明书实施例提供了一种代码处理模型训练方法,以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面,提供了一种代码处理模型训练方法,包括:获取样本代码文档和样本记录文档,其中,样本记录文档用于记录样本代码文档针对样本问题的代码修改信息,样本代码文档包括多个样本代码本文档来自技高网...

【技术保护点】

1.一种代码处理模型训练方法,包括:

2.根据权利要求1所述的方法,所述针对第一样本代码片段,根据所述第一样本代码片段和第一样本修改片段,生成所述第一样本修改片段的第一样本描述信息,包括:

3.根据权利要求1所述的方法,所述样本记录文档包括修改定位信息;

4.根据权利要求3所述的方法,所述利用所述样本问题、所述多个样本代码片段、多个样本修改片段以及所述多个样本修改片段的样本描述信息,对初始处理模型进行训练,获得代码处理模型之前,还包括:

5.根据权利要求1至4任一项所述的方法,所述解析所述样本记录文档,分别确定所述样本代码片段的样本修改片段...

【技术特征摘要】

1.一种代码处理模型训练方法,包括:

2.根据权利要求1所述的方法,所述针对第一样本代码片段,根据所述第一样本代码片段和第一样本修改片段,生成所述第一样本修改片段的第一样本描述信息,包括:

3.根据权利要求1所述的方法,所述样本记录文档包括修改定位信息;

4.根据权利要求3所述的方法,所述利用所述样本问题、所述多个样本代码片段、多个样本修改片段以及所述多个样本修改片段的样本描述信息,对初始处理模型进行训练,获得代码处理模型之前,还包括:

5.根据权利要求1至4任一项所述的方法,所述解析所述样本记录文档,分别确定所述样本代码片段的样本修改片段之前,还包括:

6.根据权利要求5所述的方法,所述根据所述语法解析结果,对所述样本代码文档进行片段拆分,获得所述样本代码文档中的多个样本代码片段之前,还包括:

7.根据权利要求1所述的方法,所述利用所述样本问题、所述多个样本代码片段、多个样本修改片段以及所述多个样本修改片段的样本描述信息,对初始处理模型进行训练,获得代码处理模型,包括:

8.根据权利要求1所述的方法,所述利用所述样本问题、所述多个样本代码片段、多个样本修改片段以及所述多个样本修改片段的样本描述信息,对初始处理模型进行训练,获得代码处理模型之前,还包括:

9.根据权利要求1所述的方法,所述利用所述样本问题、所述...

【专利技术属性】
技术研发人员:张月曹荣禹曹永昌黎槟华李永彬黄非
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1