一种代码相似度检测的方法、装置及存储介质制造方法及图纸

技术编号：37037422 阅读：12 留言：0更新日期：2023-03-29 19:16

本公开涉及代码相似度检测的方法、装置及存储介质。代码相似度检测方法包括：针对待检测代码和第一比较代码分别进行结构分析，获得结构类图；计算待检测代码结构类图和第一比较代码结构类图的相似度；在相似度小于等于第一阈值的情况下，判断为代码结构相似，并且计算待检测代码的词条与第二比较代码间的词条间的分布比重，并按照从大到小的顺序排列分布比重来获得第一特征向量；计算待检测代码词条的出现频率权重而获得第二特征向量；对第一特征向量与第二特征向量取交集来获得最终特征向量；根据最终特征向量和第一比较代码的词条向量，计算余弦相似度，比较余弦相似度与第二阈值的大小来判断是否抄袭。值的大小来判断是否抄袭。值的大小来判断是否抄袭。

全部详细技术资料下载

【技术实现步骤摘要】
一种代码相似度检测的方法、装置及存储介质

[0001]本公开总体上涉及安全领域，更具体地涉及代码相似度检测的方法、装置及存储介质。

技术介绍

[0002]随着软件规模的不断增大，软件系统中代码重复是不可避免的，这不仅增加了程序代码的容量和运行时间，也给软件维护带来了难题。因此，代码相似性具有重要的研究意义。源代码相似性度量旨在判断一段代码与其他代码在语句、语义功能上的相似程度，是代码克隆、代码剽窃、代码推荐、知识产权、信息检索等应用的基础。
[0003]目前相似度检测中多用TF
‑
IDF算法来计算特征值文档中的重要程度和文档区分度。但单纯使用TF
‑
IDF来判断一个特征是否有区分度是不够的，它没有考虑特征词在类间的分布，很难很好地反应代码的真实情况，无法提取隐藏在源代码中的深层次复杂特征。

技术实现思路

[0004]在下文中给出了关于本公开的简要概述，以便提供关于本公开的一些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。
[0005]根据本公开的一个方面，提供一种代码相似度检测方法，包括：针对待检测代码和第一比较代码分别进行结构分析，获得待检测代码结构类图和第一比较代码结构类图；计算待检测代码结构类图和第一比较代码结构类图的相似度；在相似度小于等于第一阈值的情况...

【技术保护点】

【技术特征摘要】
1.一种代码相似度检测方法，包括：针对待检测代码和第一比较代码分别进行结构分析，获得待检测代码结构类图和第一比较代码结构类图；计算待检测代码结构类图和第一比较代码结构类图的相似度；在所述相似度小于等于第一阈值的情况下，判断为待检测代码和第一比较代码的代码结构相似，并且计算待检测代码的词条与第二比较代码间的词条间的分布比重，并按照从大到小的顺序排列分布比重来获得第一特征向量，所述第二比较代码是与待检测代码同类型的代码；计算待检测代码词条的出现频率权重，并按照从大到小的顺序排列出现频率权重来获得第二特征向量；对第一特征向量与第二特征向量取交集来获得最终特征向量；根据最终特征向量和第一比较代码的词条向量，计算余弦相似度，比较余弦相似度与第二阈值的大小，如果余弦相似度大于第二阈值，则判定为待检测代码为抄袭；如果余弦相似度小于等于第二阈值，则判断为待检测代码没有抄袭。2.根据权利要求1所述的方法，其中，利用SSIM算法来计算相似度，即其中，其中，其中，其中，其中，P1表示待检测代码结构类图，P2表示第一比较代码结构类图，P1
i
、P2
i
分别为类图P1、P2的第i个像素值，N为像素值的总数，μ表示类图的像素值的平均值，σ2表示类图的像素值的方差。3.根据权利要求1所述的方法，其中，在相似度大于第一阈值的情况下，判断为代码结构不相似。4.根据权利要求1所述的方法，其中，利用卡方检验计算代码词条在同类代码间的分布比重，其中，n表示切分后的代码词条，W表示切分后的所有代码词条的数量，E
i
表示各个代码词条在类间分布的理论值。

【专利技术属性】
技术研发人员：闵婕，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人