一种基于数据流分析和注意力机制的Java方法注释即时自动更新方法技术

技术编号：36966623 阅读：19 留言：0更新日期：2023-03-22 19:27

本发明专利技术的主要工作是提出一种基于数据流分析和注意力机制的Java方法注释即时自动更新方法：首先，通过代码差异分析模块识别新旧代码之间的变更内容并表示成编辑序列；其次，通过语法分析模块分析语法节点的变化信息；然后，通过数据流分析模块对Java方法进行数据流依赖分析，得到变量节点间的数据流依赖关系；接着，使用代码文本编码神经网络模块将代码编辑序列转换为向量中间表示，使用代码结构编码神经网络将新代码抽象语法树转换为向量中间表示，使用自然语言编码神经网络模块将Java方法对应的旧注释编码为向量中间表示；最后，融合代码变更序列、代码结构、代码旧注释三方面的中间表示，通过注意力导向的解码模块生成对旧注释的操作序列。旧注释的操作序列。旧注释的操作序列。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据流分析和注意力机制的Java方法注释即时自动更新方法

[0001]本专利技术属于计算机
，尤其是软件
本专利技术提出了一种基于数据流分析和注意力机制的Java方法注释即时自动更新方法，通过分析用户对Java方法的修改，自动将旧注释更新为符合修改后的代码的新注释。本专利技术有效预防了项目中出现注释不规范、代码与注释不一致等问题，从而节省了开发人员的工作量并提高了代码的可读性和可维护性。

技术介绍

[0002]随着软件项目的复杂性和软件产品迭代频率的不断提高，程序理解在整个软件开发过程中变得越来越重要。代码注释是软件项目的重要组成部分，除了源代码，注释被认为是程序理解和维护的最基本要素。代码的各种信息，例如：为什么实现一个函数、如何实现一个函数、如何使用一个API、两个代码片段之间的关系是什么以及一个代码段是如何演变的，都可以用自然语言描述(也就是注释)记录在源代码文件中。这些注释可以帮助后续开发人员理解源代码，支持并促进不同开发人员之间的交流。因此，结构良好、内容正确的注释对代码审查、软件维护与演化起着至关重要的作用。
[0003]作为源代码的重要参考内容，注释需要与相应的代码片断共同演化。然而，在实践中，开发人员可能会在改变源代码的同时忽略更新注释，从而导致注释过时。这样的注释会误导开发者，使代码审查复杂化，甚至可能导致错误的引入，并对软件系统的健壮性产生负面影响。因此，有必要及时修复过时的注释，甚至避免其引入。近年来，深度学习技术不断发展，受序列到序列模型和注释自动生成工作的启发，...

【技术保护点】

【技术特征摘要】
1.一种基于数据流分析和注意力机制的Java方法注释即时自动更新方法，其特征在于包括如下步骤：1)对数据集中的代码变更进行差异分析，对新、旧代码中的差异部分进行标注，形成代码编辑序列，作为模型训练的输入数据；2)对数据集中的代码变更进行语法分析，得到包含代码变更的抽象语法树，分析语法树中节点的变化信息，形成变更引导的注意力矩阵；3)在语法分析得到的抽象语法树的基础上，提取该方法中所有的变量节点，应用数据流分析方法，得到节点间的数据流关系，形成数据流依赖引导的注意力矩阵；4)分别构建针对代码文本、代码结构和旧注释的编码模块，用于将代码文本、代码结构和旧注释转换为向量中间表示，同时引入步骤2)和步骤3)中的两个注意力矩阵，实现自注意力机制层；5)将步骤4)中得到的代码变更序列、代码结构和旧注释的三方面中间表示拼接成融合中间表示，将得到的融合中间表示输入到注意力导向的解码模块中，生成对旧注释的更新操作序列；6)基于步骤4)的编码器和步骤5)的解码器，得到一个序列
‑
序列(Seq2Seq)模型，在训练数据集上进行训练；为提高训练效率，使用GPU进行训练；训练结束后使用测试数据集中的数据输入模型测试，根据方法变更自动更新注释。2.根据权利要求1描述的基于混合分析和注意力机制的Java方法注释即时自动更新方法，其特征在于，步骤1)中所述的代码差异分析模块，具体如下：代码差异分析模块首先将代码文本分割成token序列，旧代码片段和新代码片段被分别转换为两个token序列，再将新代码与旧代码之间的token进行对齐，从而识别出新代码相对于旧代码的增加、修改、删除及保持不变的部分，并为每个部分添加相应的标签，即增加、修改、删除或不变；最后，将添加了标签的token序列按照原有的代码顺序依次拼接起来，形成代码编辑序列。3.根据权利要求1描述的基于混合分析和注意力机制的Java方法注释即时自动更新方法，其特征在于，步骤2)中所述的语法分析过程和变更引导的注意力矩阵，具体如下：语法分析模块将训练集中的Java语言方法级别的每一对新、旧代码样本，通过语法分析工具GumTreeDiff分析得到它们的抽象语法树，接着将两个抽象语法树进行合并，对变化的节点进行标记，形成变更引导的注意力矩阵M，作为后续训练模型的特征信息，同时也保留代码的抽象语法树的所有节点，包括节点值、节点类型等信息，矩阵M定义为：其中，A是如下定义的节点对集合：n
i
和n
j
是同一节点，或拥有相同值的节点，或n
i
和n
j
之间存在赋值关系；CN是所有变更节点的集合。4.根据权利要求1描述的基于混合分析和注意力机制的Java方法注释即时自动更新方法，其特征在于，步骤3)中所述的数据流分析方法，并根据该方法构建了数据流依赖引导的注意力矩阵，具体数据流依赖提取规则如下：输出流(Output
‑
flow)规则：(1)MethodPar...

【专利技术属性】
技术研发人员：许蕾，朱泓全，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人