一种代码注释生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40937714 阅读：23 留言：0更新日期：2024-04-18 14:56

本申请提供了一种代码注释生成方法、装置、电子设备及存储介质，重命名原代码函数名并随机替换标识符信息构建相似代码；以原代码与对应相似代码为正样本对，以原代码与同一批次下其他相似代码为负样本对，通过预设对比学习辅助模型进行对比学习，生成原代码对应的代码向量表征；加载上述模型得到的参数信息，将目标原代码与相应注释信息输入至以代码预训练模型为基础构建的端到端神经网络模型进一步优化代码向量表征；将优化代码向量表征输入解码器输出代码注释。通过保留关键词的数据增强方式构造高质量代码，采用对比学习辅助任务得到高质量代码表征，同时使用两阶段训练策略防止数据增强带来偏差问题，并进一步学习代码高质量表征。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及代码处理，具体而言，涉及一种代码注释生成方法、装置、电子设备及存储介质。

技术介绍

1、代码注释是以自然语言形式对代码进行解释说明的文本描述，其目的是让人们能够快速的了解代码的语义逻辑。高质量的代码注释在程序开发以及维护过程中显得至关重要：在开发过程中，它帮助开发人员理解代码语义，加快开发效率；在维护过程中，它帮助代码维护人员快速发现问题，减少维护成本。然而，随着开发过程中代码量的不断积累，代码注释普遍面临内容错误、与所注释代码不匹配以及缺失等问题。由于人工补全代码注释费时耗力，因此，代码注释的自动生成具有广泛且重要的现实意义。

2、现有的代码注释方法主要分为基于信息检索、基于模板匹配以及基于神经网络三种方法。最近基于大规模代码数据预训练的通用代码模型已经受到广泛关注，然而上述基于神经网络的代码注释生成方法往往受限于数据质量以及数据大小的限制，一些研究人员在此基础上使用数据增强缓解神经网络方法的限制，他们提出使用信息检索技术从代码语料库中构造数据。然而受限于语料库大小，研究者又提出基于规则的方式增强代码数据，并对增...

【技术保护点】

1.一种代码注释生成方法，其特征在于，应用于代码注释生成模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，重命名所述目标原代码对应的函数名，具体包括：

3.根据权利要求1所述的方法，其特征在于，随机替换原代码对应的标识符信息构建相似代码的过程包括：

4.根据权利要求1所述的方法，其特征在于，通过预设对比学习辅助模型进行对比学习，生成所述目标原代码对应的代码向量表征，具体包括：

5.根据权利要求1所述的方法，其特征在于：

6.一种代码注释生成装置，其特征在于，应用于代码注释生成模型，所述装置包括：

7.根...

【技术特征摘要】

1.一种代码注释生成方法，其特征在于，应用于代码注释生成模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，重命名所述目标原代码对应的函数名，具体包括：

3.根据权利要求1所述的方法，其特征在于，随机替换原代码对应的标识符信息构建相似代码的过程包括：

4.根据权利要求1所述的方法，其特征在于，通过预设对比学习辅助模型进行对比学习，生成所述目标原代码对应的代码向量表征，具体包括：

5.根据权利要求1所述的方法，其特征在于：

6.一种代码注释生成装置，其特征在于，应用于代码注释生成模型，所述装置包括：

7.根据权利...

【专利技术属性】
技术研发人员：琚生根，王欢，夏欣，朱静静，杨昱睿，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人