基于图片相似度的代码克隆检测方法、系统及存储介质技术方案

技术编号:38031955 阅读:10 留言:0更新日期:2023-06-30 10:58
本发明专利技术公开了一种基于图片相似度的代码克隆检测方法、系统及存储介质,属于源代码克隆检测领域,包括:S1、构建源代码集的倒排索引字典;S2、计算待测目标文件的代码块哈希值,并以每个代码块的哈希值为键在所述倒排索引字典中搜索,得到对应的源代码的文件名列表;S3、计算待测目标文件与所述列表中每个源代码的代码块相似度K,若,则判断待测目标文件与对应的源代码不存在克隆关系;若,则判断待测目标文件与对应的源代码存在克隆关系;S4、提取对应的源代码以及待测目标文件的语义特征矩阵,并分别转换为对应的图片,分别计算待测目标文件与每个所述源代码对应的图片相似度,得到检测结果。本发明专利技术兼顾了大规模和语义克隆检测。顾了大规模和语义克隆检测。顾了大规模和语义克隆检测。

【技术实现步骤摘要】
基于图片相似度的代码克隆检测方法、系统及存储介质


[0001]本专利技术属于源代码克隆检测领域,更具体地,涉及一种基于图片相似度的代码克隆检测方法、系统及存储介质。

技术介绍

[0002]代码克隆检测作为衡量代码复用的一种有效方式,在软件开发、维护以及质量保证中发挥着重要作用。不好的代码复用方式会对整个软件系统的开发和维护带来很多不利因素,因此高效且准确的代码克隆检测是亟需解决的痛点问题。
[0003]目前主流的代码克隆检测可以分为大规模克隆检测和语义克隆检测两类。大规模克隆检测主要采用基于文本和基于令牌的方式实现,通过直接将代码片段转换为文本或令牌序列,然后进行相似度比较,检测时间较短,但缺乏对代码语义信息的考虑。
[0004]现有的语义克隆检测主要包括基于图和基于树的检测方法。基于图的检测方法,程序依赖的图(PDG)和控制流图(CFG)都具有复杂的结构,导致对其相似度匹配的时间开销巨大;此外,生成准确的图形表示一般需要代码编译,这导致基于图的方法对某些代码片段(例如单个函数、代码片段)的检测有限。基于树的克隆检测方法中树表征的结构也非常复杂,仍然会导致匹配的时间开销过大。

技术实现思路

[0005]针对现有技术的缺陷和改进需求,本专利技术提供了一种基于图片相似度的代码克隆检测方法、系统及存储介质,其目的在于同时实现对大规模语义克隆的代码克隆检测。
[0006]为实现上述目的,按照本专利技术的一个方面,提供了一种基于图片相似度的代码克隆检测方法,包括:S1、构建源代码集的倒排索引字典,所述倒排索引字典的键为每个源代码块的哈希值,值为源代码的文件名;S2、计算待测目标文件的代码块哈希值,并以每个代码块的哈希值为键在所述倒排索引字典中搜索,得到对应的源代码的文件名列表;S3、计算待测目标文件与所述列表中每个源代码的代码块相似度K,若,则判断待测目标文件与对应的源代码不存在克隆关系;若,则判断待测目标文件与对应的源代码存在克隆关系;其中,为设定的第一克隆过滤阈值,为设定的第二克隆过滤阈值;S4、提取对应的源代码以及待测目标文件的语义特征矩阵,并分别转换为对应的图片,分别计算待测目标文件与每个所述源代码对应的图片相似度,得到克隆检测结果。
[0007]进一步地,S4中,提取对应的源代码以及待测目标文件的语义特征矩阵,并分别转换为对应的图片包括:S41、将待测目标文件以及对应的源代码转换为抽象语法树;
S42、将所述抽象语法树转换为N
×
N的语义特征矩阵,其中,所述语义特征矩阵中的元素表示所述抽象语法树中节点指向节点的边的条数,和取值分别为0,1,
……
,N

1,N为所述抽象语法树节点的总数;S43、将所述语义特征矩阵转换为对应的图片。
[0008]3.根据权利要求2所述的方法,其特征在于,S43中,将所述语义特征矩阵转换为对应的图片之前,还包括:删除所述语义特征矩阵中表示两个叶子节点之间边的条数的元素。
[0009]进一步地,S43中,将所述语义特征矩阵转换为对应的图片之前,还包括:将所述语义特征矩阵进行归一化;所述归一化公式为:其中,表示归一化之前的语义特征矩阵,表示归一化之后的语义特征矩阵。
[0010]进一步地,S4中,分别计算待测目标文件与每个所述源代码对应的图片相似度,得到克隆检测结果,包括:分别计算待测目标文件与每个所述源代码对应的图片的均方误差值;若所述均方误差值大于设定的图片距离阈值,则判定待测目标文件与相应的源代码为非克隆代码对,否则为克隆代码对。
[0011]进一步地,S1中,构建源代码集的倒排索引字典包括:S11、将源代码的每n行拼接为一个字符串,则每个源代码生成的代码块个数为:M

n+1,其中,M表示源代码的行数;S12、计算每个代码块的哈希值,并以所述哈希值为键,对应的源代码的文件名为值,构建所述倒排索引字典。
[0012]进一步地,在S11之前,还包括步骤:提取每个源代码的抽象语法树,并对所述抽象语法树中的变量名类型节点的代码令牌进行规范化;所述规范化包括将同类型变量的变量名用统一的变量名代替。
[0013]进一步地,S3中,所述代码块相似度K为:其中,表示待测目标文件生成的代码块个数,为所述列表中任一候选源代码的代码块个数,表示待测目标文件与所述候选源代码的代码块重合行数,表达式为: 。
[0014]按照本专利技术的另一方面,提供了一种基于图片相似度的代码克隆检测系统,用于执行如第一方面任一项所述的基于图片相似度的代码克隆检测方法,包括:倒排索引字典构建模块,用于构建源代码集的倒排索引字典,所述倒排索引字典的键为每个源代码块的哈希值,值为源代码的文件名;粗粒度过滤结果计算模块,用于计算待测目标文件的代码块哈希值,并以每个代码块的哈希值为键在所述倒排索引字典中搜索,得到对应的源代码的文件名列表;
细粒度过滤结果计算模块,用于计算待测目标文件与所述列表中每个源代码的代码块相似度K,若,则判断待测目标文件与对应的源代码不存在克隆关系;若,则判断待测目标文件与对应的源代码存在克隆关系;其中,为设定的第一克隆过滤阈值,为设定的第二克隆过滤阈值;克隆检测模块,用于提取对应的源代码以及待测目标文件的语义特征矩阵,并分别转换为对应的图片,分别计算待测目标文件与每个所述源代码对应的图片相似度,得到克隆检测结果。
[0015]按照本专利技术的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面任一项所述的方法。
[0016]总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:(1)本专利技术的方法通过构建源代码集的倒排索引字典,在倒排索引字典搜索与待测目标文件存在一定相似性的代码集合作为粗粒度过滤的结果,实现在大规模源代码集中快速过滤非克隆代码;基于该粗粒度过滤的结果,再次过滤掉与目标文件明显不存在克隆关系或者明显存在克隆关系的源代码,得到细粒度过滤的结果,以减少后续语义特征矩阵提取的样本量,降低相似度匹配的时间开销,通过将克隆检测问题转换为图片相似度比较问题,基于图片的相似性得到克隆检测结果,从而达到语义克隆检测的效果,也即本专利技术能够降低匹配的时间开销,同时兼顾了大规模和语义克隆检测。
[0017](2)进一步地,本专利技术的方法通过将代码转换为抽象语法树,再将抽象语法树转换为语义特征矩阵,通过抽取抽象语法树的边信息构造一个包含树结构信息的树表征矩阵(也即语义特征矩阵),将两个复杂的抽象语法树匹配算法转换为N
×
N的二维矩阵,再将其转换为图片进行比较,而不必直接进行语法树之间的匹配,避免了抽象语法树匹配算法的时间长及空间复杂度高的问题,进一步降低了匹配的时间开销。
[0018](3)作为优选,由于抽象语法树的令牌节点均为叶子节点,树形结构中叶子节点之间不存在边,也即两个叶子节点之间边的数量为0,因此,删除语义特征矩阵中表示两个叶子节点之间边的数量的元素,以压缩语义特征矩阵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图片相似度的代码克隆检测方法,其特征在于,包括:S1、构建源代码集的倒排索引字典,所述倒排索引字典的键为每个源代码块的哈希值,值为源代码的文件名;S2、计算待测目标文件的代码块哈希值,并以每个代码块的哈希值为键在所述倒排索引字典中搜索,得到对应的源代码的文件名列表;S3、计算待测目标文件与所述列表中每个源代码的代码块相似度K,若,则判断待测目标文件与对应的源代码不存在克隆关系;若,则判断待测目标文件与对应的源代码存在克隆关系;其中,为设定的第一克隆过滤阈值,为设定的第二克隆过滤阈值;S4、提取对应的源代码以及待测目标文件的语义特征矩阵,并分别转换为对应的图片,分别计算待测目标文件与每个所述源代码对应的图片相似度,得到克隆检测结果。2.根据权利要求1所述的方法,其特征在于,S4中,提取对应的源代码以及待测目标文件的语义特征矩阵,并分别转换为对应的图片包括:S41、将待测目标文件以及对应的源代码转换为抽象语法树;S42、将所述抽象语法树转换为N
×
N的语义特征矩阵,其中,所述语义特征矩阵中的元素表示所述抽象语法树中节点指向节点的边的条数,和取值分别为0,1,
……
,N

1,N为所述抽象语法树节点的总数;S43、将所述语义特征矩阵转换为对应的图片。3.根据权利要求2所述的方法,其特征在于,S43中,将所述语义特征矩阵转换为对应的图片之前,还包括:删除所述语义特征矩阵中表示两个叶子节点之间边的条数的元素。4.根据权利要求2或3所述的方法,其特征在于,S43中,将所述语义特征矩阵转换为对应的图片之前,还包括:将所述语义特征矩阵进行归一化;所述归一化公式为:其中,表示归一化之前的语义特征矩阵,表示归一化之后的语义特征矩阵。5.根据权利要求1所述的方法,其特征在于,S4中,分别计算待测目标文件与每个所述源代码对应的图片相似度,得到克隆检测结果,包括:分别计算待测目标文件与每个所述源代码对应的图片的均方误差值;若所述均方误差值大于设定的图片距离阈值,则判定待测目标文件与相应的源代...

【专利技术属性】
技术研发人员:王宁胡雨涛索雯琪吴月明王可馨邹德清
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1