源码文件匹配率分析方法技术

技术编号:24756895 阅读:34 留言:0更新日期:2020-07-04 09:19
本发明专利技术涉及一种源码文件匹配率分析方法,包括:步骤1)分别提取第一源码文件和第二源码文件的文件级特征;步骤2)对比第一源码文件和第二源码文件的文件哈希值,相同,则二者匹配率为100%;步骤3)分别提取第一源码文件和第二源码文件的函数级特征;步骤4)将第一源码文件和第二源码文件中各个函数的哈希值分别进行对比,对哈希值相同的一个或多个函数的代码行数进行统计,以获得第一代码行数;步骤5)统计第一源码文件的有效代码行数以作为第二代码行数,将第一代码行数/第二代码行数*100%以获得二者的匹配率。通过本发明专利技术,在源代码多级特征提取的基础上,完成了对源码文件匹配率的有效检测。

Analysis method of source code file matching rate

【技术实现步骤摘要】
源码文件匹配率分析方法
本专利技术涉及信息安全领域,尤其涉及一种源码文件匹配率分析方法。
技术介绍
国内代码组成和安全风险分析技术研究正处于百花齐放、百家争鸣的阶段,一些大学教授和安全领域专家正在从事一些细分
的研究。山东大学王凤宇教授正在研究基于函数层特征的二进制代码匹配与分析技术,该方法需要反汇编恶意软件并对汇编代码进行分析才能获得函数的特征,所以函数的特征会受混淆技术的干扰,需要采用静态分析和动态分析相结合的方法进行研究,该方法主要用于实现恶意软件的检测、已有研究成果仍停留在实验室论证阶段。内蒙古大学的刘东升教授开展了代码复制检测技术研究,该方法基于特征串进行匹配和识别,仅能支持C编程语言的分析,且依赖多个第三方分析工具作为辅助支撑,依然停留于试验仿真阶段。国防大学提出了一种高维特征融合的恶意代码分析方法,对恶意代码的静态二进制文件和反汇编特征等进行提取,借鉴局部敏感性思想,对多维特征进行融合分析和处理,采用典型的机器学习方法对融合后的特征向量进行学习训练,但是该方法仅适用于样本较少的场景,即无法适用于大规模本文档来自技高网...

【技术保护点】
1.一种源码文件匹配率分析方法,用于分析第一源码文件和第二源码文件的匹配率,其特征在于,所述方法包括:/n步骤1)分别提取第一源码文件和第二源码文件的文件级特征,所述文件级特征包括源码文件的文件大小、文件哈希值和有效代码行数;/n步骤2)对比第一源码文件和第二源码文件的文件哈希值,相同,则第一源码文件和第二源码文件的匹配率为100%并结束所述方法,不相同,则跳转至步骤3);/n步骤3)分别提取第一源码文件和第二源码文件的函数级特征,所述函数级特征包括源码文件中每一个函数的函数大小、函数哈希值和代码行数;/n步骤4)将第一源码文件中每一个函数的哈希值与第二源码文件中各个函数的哈希值分别进行对比,...

【技术特征摘要】
1.一种源码文件匹配率分析方法,用于分析第一源码文件和第二源码文件的匹配率,其特征在于,所述方法包括:
步骤1)分别提取第一源码文件和第二源码文件的文件级特征,所述文件级特征包括源码文件的文件大小、文件哈希值和有效代码行数;
步骤2)对比第一源码文件和第二源码文件的文件哈希值,相同,则第一源码文件和第二源码文件的匹配率为100%并结束所述方法,不相同,则跳转至步骤3);
步骤3)分别提取第一源码文件和第二源码文件的函数级特征,所述函数级特征包括源码文件中每一个函数的函数大小、函数哈希值和代码行数;
步骤4)将第一源码文件中每一个函数的哈希值与第二源码文件中各个函数的哈希值分别进行对比,对第一源码文件和第二源码文件中哈希值相同的一个或多个函数的代码行数进行统计,以获得第一代码行数;
步骤5)统计第一源码文件的有效代码行数以作为第二代码行数,将第一代码行数/第二代码行数*100%以获得第一源码文件和第二源码文件的匹配率,结束所述方法。


2.如权利要求1所述的源码文件匹配率分析方法,其特征在于:
在步骤1)中,源码文件的文件大小的获取模式如下:根据源码文件的字节数计算源码文件的文件大小。


3.如权利要求1所述的源码文件匹配率分析方法,其特征在于:
在步骤1)中,源码文件的有效代码行数的获取模式如下:提取源码文件中所有源代码内容,去掉其中的空行和注释内容,根据换行符对剩余的源代码的行数进行统计以获得源码文件的有效代码行数。


4.如权利要求1所述的源码文件匹配率分析方法,其特征在于:
在步骤1)中...

【专利技术属性】
技术研发人员:巨李岗从慧珅赵亚舟
申请(专利权)人:北京关键科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1