【技术实现步骤摘要】
一种训练样本构建方法、装置、电子设备及介质
[0001]本公开涉及互联网
,尤其涉及大数据、代码管理
技术介绍
[0002]在代码智能场景中,代码可以作为训练样本,以训练人工智能(Artificial Intelligence,AI)模型,使AI模型能够支持代码解释或代码修复等功能。
技术实现思路
[0003]本公开提供了一种训练样本构建方法、装置、电子设备及介质。
[0004]本公开实施例的第一方面,提供了一种训练样本构建方法,包括:
[0005]从代码托管平台获取用户编写的代码;
[0006]获取用户针对所述代码提交的任务卡片,所述任务卡片包括所述代码的类型和描述信息;
[0007]根据所述代码的类型和所述代码,构建训练样本;
[0008]基于所述代码的描述信息,设置所述训练样本的训练标签。
[0009]本公开实施例的第二方面,提供了一种训练样本构建装置,包括:
[0010]获取模块,用于从代码托管平台获取用户编写的代码;
[0011]所述获取模块,还用于获取用户针对所述代码提交的任务卡片,所述任务卡片包括所述代码的类型和描述信息;
[0012]构建模块,用于根据所述获取模块获取的所述代码的类型和所述代码,构建训练样本;
[0013]设置模块,用于基于所述获取模块获取的所述代码的描述信息,设置所述训练样本的训练标签。
[0014]本公开实施例的第三方面,提供了一种电子设备,包括:
[00 ...
【技术保护点】
【技术特征摘要】
1.一种训练样本构建方法,包括:从代码托管平台获取用户编写的代码;获取用户针对所述代码提交的任务卡片,所述任务卡片包括所述代码的类型和描述信息;根据所述代码的类型和所述代码,构建训练样本;基于所述代码的描述信息,设置所述训练样本的训练标签。2.根据权利要求1所述的方法,其中,所述根据所述代码的类型和所述代码,构建训练样本,包括:若所述代码的类型为需求任务类型,则将所述代码拆分为多个函数,所述需求任务类型的代码为针对需求任务编写的代码;将每个函数分别作为一个训练样本。3.根据权利要求2所述的方法,其中,所述描述信息包括用于描述代码含义的标题和内容;所述基于所述代码的描述信息,设置所述训练样本的训练标签,包括:检测所述内容是否符合预设规范;若符合,则将所述内容作为所述训练标签;若不符合,则将所述标题作为所述训练标签。4.根据权利要求2所述的方法,其中,所述描述信息包括用于描述代码含义的标题和内容;所述基于所述代码的描述信息,设置所述训练样本的训练标签,包括:检测所述内容是否符合预设规范,并识别所述训练样本中是否包括函数解释;若所述内容符合所述预设规范,且所述训练样本中包括函数解释,则将所述内容和所述函数解释作为所述训练标签;若所述内容符合所述预设规范,且所述训练样本中不包括函数解释,则将所述内容作为所述训练标签;若所述内容不符合所述预设规范,且所述训练样本中包括函数解释,则将所述标题和所述函数解释作为所述训练标签;若所述内容不符合所述预设规范,且所述训练样本中不包括函数解释,则将所述标题作为所述训练标签。5.根据权利要求1所述的方法,其中,所述根据所述代码的类型和所述代码,构建训练样本,包括:若用户编写的代码的类型为消除错误类型,则获取所述用户编写的代码对应的目标问题代码;所述消除错误类型的代码用于替换自身对应的问题代码;基于所述目标问题代码构建训练样本。6.根据权利要求5所述的方法,其中,所述基于所述目标问题代码构建训练样本,包括:将所述目标问题代码作为所述训练样本;或者,确定所述目标问题代码中存在错误的问题函数,并将所述问题函数作为所述训练样本。7.根据权利要求5所述的方法,其中,所述描述信息包括用于描述代码含义的标题和内容;所述基于所述代码的描述信息,设置所述训练样本的训练标签,包括:检测所述内容是否符合预设规范;
若符合,则将所述内容作为所述训练样本的含义标签,并将用户编写的代码作为所述训练样本的修复标签;若不符合,则将所述标题作为所述训练样本的含义标签,并将用户编写的代码作为所述训练样本的修复标签。8.根据权利要求7所述的方法,所述描述信息包括用于描述代码含义的标题和内容;所述基于所述代码的描述信息,设置所述训练样本的训练标签,包括:检测所述内容是否符合预设规范,并识别用户编写的代码中是否包括函数解释;若所述内容符合所述预设规范,且用户编写的代码中包括函数解释,则将所述内容和所述函数解释作为所述训练样本的含义标签,并将用户编写的代码作为所述训练样本的修复标签;若所述内容符合所述预设规范,且用户编写的代码中不包括函数解释,则将所述内容作为所述训练样本的含义标签,并将用户编写的代码作为所述训练样本的修复标签;若所述内容不符合所述预设规范,且用户编写的代码中包括函数解释,则将所述标题和所述函数解释作为所述训练样本的含义标签,并将用户编写的代码作为所述训练样本的修复标签;若所述内容不符合所述预设规范,且用户编写的代码中不包括函数解释,则将所述标题作为所述训练样本的含义标签,并将用户编写的代码作为所述训练样本的修复标签。9.根据权利要求1
‑
8任一项所述的方法,在所述获取用户针对所述代码提交的任务卡片之前,所述方法还包括:从所述代码托管平台获取用户针对编写的代码提交的代码提交信息,所述代码提交信息包括所述任务卡片的标识;所述获取用户针对所述代码提交的任务卡片,包括:从需求管理平台的各任务卡片中,查找所述标识对应的任务卡片。10.一种训练样本构建装置,包括:获取模块,用于从代码托管平台获取用户编写的代码;所述获取模块,还用于获取用户针对所述代码提交的任务卡片,所述任务卡片包括所述代码的类型和描述信息;构建模块,用于根据所述获取模块获取的所述代码的类型和所述代码,...
【专利技术属性】
技术研发人员:赵悦浩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。