基于图片相似度的代码克隆检测方法、系统及存储介质技术方案

技术编号：38031955 阅读：10 留言：0更新日期：2023-06-30 10:58

本发明专利技术公开了一种基于图片相似度的代码克隆检测方法、系统及存储介质，属于源代码克隆检测领域，包括：S1、构建源代码集的倒排索引字典；S2、计算待测目标文件的代码块哈希值，并以每个代码块的哈希值为键在所述倒排索引字典中搜索，得到对应的源代码的文件名列表；S3、计算待测目标文件与所述列表中每个源代码的代码块相似度K，若，则判断待测目标文件与对应的源代码不存在克隆关系；若，则判断待测目标文件与对应的源代码存在克隆关系；S4、提取对应的源代码以及待测目标文件的语义特征矩阵，并分别转换为对应的图片，分别计算待测目标文件与每个所述源代码对应的图片相似度，得到检测结果。本发明专利技术兼顾了大规模和语义克隆检测。顾了大规模和语义克隆检测。顾了大规模和语义克隆检测。

全部详细技术资料下载

【技术实现步骤摘要】
基于图片相似度的代码克隆检测方法、系统及存储介质

[0001]本专利技术属于源代码克隆检测领域，更具体地，涉及一种基于图片相似度的代码克隆检测方法、系统及存储介质。

技术介绍

[0002]代码克隆检测作为衡量代码复用的一种有效方式，在软件开发、维护以及质量保证中发挥着重要作用。不好的代码复用方式会对整个软件系统的开发和维护带来很多不利因素，因此高效且准确的代码克隆检测是亟需解决的痛点问题。
[0003]目前主流的代码克隆检测可以分为大规模克隆检测和语义克隆检测两类。大规模克隆检测主要采用基于文本和基于令牌的方式实现，通过直接将代码片段转换为文本或令牌序列，然后进行相似度比较，检测时间较短，但缺乏对代码语义信息的考虑。
[0004]现有的语义克隆检测主要包括基于图和基于树的检测方法。基于图的检测方法，程序依赖的图（PDG）和控制流图（CFG）都具有复杂的结构，导致对其相似度匹配的时间开销巨大；此外，生成准确的图形表示一般需要代码编译，这导致基于图的方法对某些代码片段（例如单个函数、代码片段）的检测有限。基于树的克隆检测方法中树表征的结构也非常复杂，仍然会导致匹配的时间开销过大。

技术实现思路

[0005]针对现有技术的缺陷和改进需求，本专利技术提供了一种基于图片相似度的代码克隆检测方法、系统及存储介质，其目的在于同时实现对大规模语义克隆的代码克隆检测。
[0006]为实现上述目的，按照本专利技术的一个方面，提供了一种基于图片相似度的代码克隆检测方法，包括：S1、构建源代码集的倒排...

【技术保护点】

【技术特征摘要】
1.一种基于图片相似度的代码克隆检测方法，其特征在于，包括：S1、构建源代码集的倒排索引字典，所述倒排索引字典的键为每个源代码块的哈希值，值为源代码的文件名；S2、计算待测目标文件的代码块哈希值，并以每个代码块的哈希值为键在所述倒排索引字典中搜索，得到对应的源代码的文件名列表；S3、计算待测目标文件与所述列表中每个源代码的代码块相似度K，若，则判断待测目标文件与对应的源代码不存在克隆关系；若，则判断待测目标文件与对应的源代码存在克隆关系；其中，为设定的第一克隆过滤阈值，为设定的第二克隆过滤阈值；S4、提取对应的源代码以及待测目标文件的语义特征矩阵，并分别转换为对应的图片，分别计算待测目标文件与每个所述源代码对应的图片相似度，得到克隆检测结果。2.根据权利要求1所述的方法，其特征在于，S4中，提取对应的源代码以及待测目标文件的语义特征矩阵，并分别转换为对应的图片包括：S41、将待测目标文件以及对应的源代码转换为抽象语法树；S42、将所述抽象语法树转换为N
×
N的语义特征矩阵，其中，所述语义特征矩阵中的元素表示所述抽象语法树中节点指向节点的边的条数，和取值分别为0,1，
……
，N
‑
1，N为所述抽象语法树节点的总数；S43、将所述语义特征矩阵转换为对应的图片。3.根据权利要求2所述的方法，其特征在于，S43中，将所述语义特征矩阵转换为对应的图片之前，还包括：删除所述语义特征矩阵中表示两个叶子节点之间边的条数的元素。4.根据权利要求2或3所述的方法，其特征在于，S43中，将所述语义特征矩阵转换为对应的图片之前，还包括：将所述语义特征矩阵进行归一化；所述归一化公式为：其中，表示归一化之前的语义特征矩阵，表示归一化之后的语义特征矩阵。5.根据权利要求1所述的方法，其特征在于，S4中，分别计算待测目标文件与每个所述源代码对应的图片相似度，得到克隆检测结果，包括：分别计算待测目标文件与每个所述源代码对应的图片的均方误差值；若所述均方误差值大于设定的图片距离阈值，则判定待测目标文件与相应的源代...

【专利技术属性】
技术研发人员：王宁，胡雨涛，索雯琪，吴月明，王可馨，邹德清，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人