一种基于深度学习的代码提交自动分类方法技术

技术编号：39434350 阅读：16 留言：0更新日期：2023-11-19 16:17

本发明专利技术涉及一种基于深度学习方法的代码提交自动分类方法，属于自动化软件工程技术领域。该方法使用双向的Transformer编码器表示从代码提交的变更描述中提取文本特征，并从代码提交的代码变更中提取其修改模块的细粒度代码行变化特征。通过多模态适应门机制等方法将文本特征与代码特征进行融合，对融合后的代码特征使用多层感知机进行分类。本发明专利技术在相同数据集下，分类性能(准确率和宏观均值F1)均高于现有方法；能够跨不同编程语言工作，也可以在复杂的多语言项目中工作。在复杂的多语言项目中工作。在复杂的多语言项目中工作。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的代码提交自动分类方法

[0001]本专利技术涉及一种基于深度学习的代码提交分类方法，属于自动化软件工程

技术介绍

[0002]代码提交(commit)是指在使用版本控制系统(如Git)时，软件开发者将当前工作目录的修改进行保存，向版本控制系统提交以形成一个新的项目版本的过程。这是软件开发者对软件项目进行开发和维护的一个基本过程，一个软件项目正是由一个个代码提交不断演化，以适应外界各种需求的变化。
[0003]理解软件迭代的动机，可以帮助开发者更好地管理需求变更，控制风险和提高开发效率，从而降低维护成本。为了更好地研究软件迭代演化的过程，提高软件的质量，近些年来有很多工作着手于研究代码提交的自动分类问题。
[0004]本专利技术基于Ghadhab等人的方法进行改进，他们的方法是目前代码提交自动分类技术中分类性能最好的，但是仍然存在一定的局限性。
[0005]1、他们的方法虽然利用基于Transformer的双向编码表示(BERT)对代码提交中的变更描述(commit message)进行特征提取，但是并没有将BERT在下游任务中进行微调，BERT的编码向量不能完全捕获代码提交自动分类任务中所需要的特征，因此分类的性能不高。
[0006]2、他们的方法基于fixminer等工具从源代码变更中挖掘代码特征，但由于这些工具的限制，他们的方法仅局限于Java语言，无法跨语言使用，也就无法在复杂的多语言的软件项目中使用。
[0007]3、他们的方法将BERT的特...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的代码提交自动分类方法，其特征包括：步骤1、数据收集；步骤1.1：人工标注微调数据集；步骤1.2：自动生成预训练数据集；步骤2、特征提取；对步骤1.1和步骤1.2的代码提交数据集进行特征提取，所提取的特征将被用于步骤3的特征融合中；步骤2.1：代码提交的文本特征提取；使用基于Transformer的双向编码表示(BERT)对代码提交变更描述的文本进行特征提取；首先将变更描述的文本使用分词器划分成一系列的单词，然后将这些单词映射成一个向量，将这些向量输入到BERT中，最后选择BERT输出到对应[cls]单词的向量，将这个向量作为整段变更描述文本的特征向量；步骤2.2：代码提交的代码特征提取；将代码提交中所更改的文件划分为代码文件类别、测试文件类别和文档文件类别；对于代码文件类别和测试文件类别，因为其中的内容属于编程语言代码，而编程语言代码中的每一行有不同的功能，因此本发明将代码文件的代码行分为三种类别，即代码行，注释行和空行；代码行表示了代码本身的功能，注释行提高了代码行的可读性，而空行是一种特殊的注释行，本身并不提供信息，而是用于格式化代码；对于代码文件类别和测试文件类别，分别统计代码提交记录中所有属于代码文件类别和测试文件类别的更改中，代码行增加和减少的总量，注释行增减和减少的总量，空行增加和减少的总量，并分别计算代码行增减减少的差值，注释行增加减少的差值，空行增加减少的差值，让模型可容易学到代码...

【专利技术属性】
技术研发人员：曾群鸿，张宇霞，刘辉，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人