基于注意力机制的图序列关联的代码摘要方法技术

技术编号：37448881 阅读：16 留言：0更新日期：2023-05-06 09:20

本发明专利技术涉及代码摘要技术领域，涉及一种基于注意力机制的图序列关联的代码摘要方法，包括：一、对代码进行处理，对源代码进行分词得到代码序列；解析代码得到抽象语法树，通过添加序列流和数据流得到代码图；二、通过序列编码器和图编码器分别对代码序列和代码图进行编码，得到序列编码向量和图编码向量；三、在解码器端，输入代码摘要的起始单词<BOS>，在解码器中同时根据序列编码向量和图编码向量分别进行注意力计算，融合后，通过全连接映射计算得到解码器的输出，即预测的单词；四、将上一时刻输出单词作为当前时刻解码器的输入，重复第三步，直到解码器输出遇到终止单词<EOS>结束。本发明专利技术能较佳地进行代码摘要。发明专利技术能较佳地进行代码摘要。发明专利技术能较佳地进行代码摘要。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力机制的图序列关联的代码摘要方法

[0001]本专利技术涉及代码摘要
，具体地说，涉及一种基于注意力机制的图序列关联的代码摘要方法。

技术介绍

[0002]代码摘要是一项通过自然语言描述代码的任务，包括代码的功能、用途和注意事项等对于程序理解有益的描述。随着软件代码量越加庞大，近90％的开发时间都是用在软件维护上，如版本迭代、程序理解和bug修复。长时间的程序理解这无疑给软件的开发效率带来的极大的影响。实际上，大部分的代码注释往往都会由于人为的原因导致代码注释的缺失、不足或者注释与代码不匹配等一系列问题。开发人员对于注释的重视程度往往决定了代码注释是否能被有效的理解。高质量的代码摘要便是能极大的降低开发人员在程序理解上的开销，代码摘要通过提供简介的代码描述，能让开发人员迅速理解代码的功能和用法。因此代码摘要生成便是一件对于开发人员非常有意义的工作，高质量的代码注释能极大的减少开发过程中不必要的花销。
[0003]目前的研究中，大多数代码摘要工作的都是基于检索或基于生成的方法。基于检索的代码摘要主要问题是当遇到与数据库中代码相差较大的代码，其表现会很差。目前生成模型的输入主要有三种，分别是代码序列、AST树和图，但是生成模型往往都是通过序列或展平的AST树得到代码的摘要，并没有有效考虑代码的结构信息。

技术实现思路

[0004]本专利技术的内容是提供一种基于注意力机制的图序列关联的代码摘要方法，其能够克服现有技术的某种或某些缺陷。
[0005]根据本专利技术的基于注意力机制...

【技术保护点】

【技术特征摘要】
1.基于注意力机制的图序列关联的代码摘要方法，其特征在于：包括以下步骤：一、对代码进行处理，对源代码进行分词得到代码序列；通过开源工具tree
‑
sitter解析代码得到抽象语法树，通过添加序列流和数据流得到代码图；二、通过序列编码器和图编码器分别对代码序列和代码图进行编码，得到序列编码向量和图编码向量；三、在解码器端，输入代码摘要的起始单词<BOS>，在解码器中同时根据序列编码向量和图编码向量分别进行注意力计算，融合后，通过全连接映射计算得到解码器的输出，即预测的单词；四、将上一时刻输出单词作为当前时刻解码器的输入，重复第三步，直到解码器输出遇到终止单词<EOS>结束。2.根据权利要求1所述的基于注意力机制的图序列关联的代码摘要方法，其特征在于：序列编码器为Transformer，Transformer采用多头自注意力机制，具体如下：对于给定的输入序列X＝{x1,x2,x3,...,x
n
}，其中R是向量空间的集合，d
model
表示向量的维度；经过计算后的到输出Output＝{o1,o2,o3,...,o
n
}；首先初始化4个d
model
×
d
model
可学习矩阵W
Q
,W
K
,W
V
,W
O
；按照下列公式计算得到多头注意力的输出：Output＝Concat(head1,...,head
h
)W
O
Q
i
,K
i
,V
i
＝XW
iQ
,XW
iK
,XW
iV
其中并且d
...

【专利技术属性】
技术研发人员：蔡波，于耀翔，曾键徽，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人