一种代码语义克隆检测方法、装置及系统制造方法及图纸

技术编号：41316142 阅读：4 留言：0更新日期：2024-05-13 14:57

本发明专利技术公开了一种代码语义克隆检测方法、装置及系统，所述代码语义克隆检测方法包括将源代码处理成向量表示；将所述代码表示输入至预先训练好的Siamese网络模型，由所述神经网络模型预测输入的向量表示是否构成克隆对；所述Siamese网络模型包括Transformer编码器、图卷积网络模型和分类器，使用一致的权重来处理两个不同的输入，使得生成的图嵌入对具有可比性；使用LIME解释器对所述神经网络模型的预测结果进行解释。本发明专利技术不仅能够准确识别代码的语义克隆，还可以为检测结果提供直观的解释。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于软件程序处理领域，具体涉及一种代码语义克隆检测方法、装置及系统。

技术介绍

1、随着软件工程的蓬勃发展，为了提升开发效率，代码复用变得日益普及。然而，这带来了大量的代码冗余和相似性，被广泛称为“代码克隆”。“代码克隆”不仅加重了代码维护的负担，而且增加了错误和安全隐患的风险。因此，代码克隆检测逐渐上升为软件工程领域的研究焦点。

2、现有技术中的代码克隆检测方法主要存在以下问题：

3、(1)传统的代码克隆检测方法主要关注代码的结构或语法相似性，导致那些结构或语法上有差异但语义上高度相似的代码片段被忽略。这些方法的泛化能力受限，因此可能会遗漏实际存在的代码语义克隆，从而增加了代码维护的复杂性和bug的潜在风险。

4、(2)现有的语义克隆检测方法在深入挖掘代码的语义信息时相对粗糙，这些方法往往难以识别和处理代码的深层语义细节，尤其是代码片段间那些微妙而关键的联系。这不仅降低了代码语义克隆检测的准确性，也增加了误报和漏报的可能性。

5、(3)虽然机器学习模型在多个领域都展现出了卓越的性能，但这些模型的决策过程常常是黑盒的，缺乏透明性。用户和开发人员由于无法理解模型的预测逻辑，可能会对模型的检测结果存有疑虑。这种缺乏解释性的情况对模型在实际开发中的采纳率和可靠性构成了障碍。

技术实现思路

1、针对上述问题，本专利技术提出一种代码语义克隆检测方法、装置及系统，不仅能够准确识别代码的语义克隆，还可以为检测结果提供直观的解释。

<...

【技术特征摘要】

1.一种代码语义克隆检测方法，其特征在于，包括：

2.根据权利要求1所述的一种代码语义克隆检测方法，其特征在于，所述将源代码处理成向量表示，包括：

3.根据权利要求1所述的一种代码语义克隆检测方法，其特征在于：所述transformer编码器包括多个堆叠的结构相同的transformer层，各transformer层均包含多头自注意力子层和前馈神经网络。

4.根据权利要求3所述的一种代码语义克隆检测方法，其特征在于：所述transformer编码器对接收到的数据执行以下操作：

5.根据权利要求1所述的一种代码语义克隆检测方法，其特征在于：所述图卷积网络模型包括顺次设置的多层图卷积网络、第一...

【专利技术属性】
技术研发人员：王海叶，瞿治国，孙乐，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人