基于数据切片及图像哈希组合的样本同源分析方法技术

技术编号:20076005 阅读:29 留言:0更新日期:2019-01-15 00:54
本发明专利技术提供一种基于数据切片及图像哈希组合的样本同源分析方法,步骤如下:1、收集已知APT组织的恶意样本;2、过滤并还原处理训练数据集的样本;3、对样本进行静态分析,提取数据切片;4、对样本及其他训练数据集的样本进行动态分析,提取数据切片;5、对所有的数据切片进行白名单数据切片的过滤及人工审核整理切片格式;6、格式化所有数据切片为灰度图形式并按功能分类;7、计算所有灰度图并分类保存计算结果到指纹数据库;8、测试数据集中的样本所属组织;通过以上步骤,实现了一种基于数据切片及图像哈希组合的样本同源分析方法,减少人工,时间成本,解决了现有APT同源样本分析中存在滞后期,高度依赖人工分析的问题。

Sample Homology Analysis Based on Data Slicing and Image Hash Combination

The present invention provides a sample homology analysis method based on data slicing and image hash combination, the steps are as follows: 1. collecting malicious samples of known APT organizations; 2. filtering and restoring samples of training data sets; 3. Static analysis of samples to extract data slices; 4. dynamic analysis of samples and other training data sets to extract data slices; 5. All data slices are filtered by white list data slices and manually checked and sorted out slice format; 6. Format all data slices into gray-scale graphics and classify them according to their functions; 7. Calculate all gray-scale images and save the results to fingerprint database by classification; 8. Test the organization of samples in data sets; Through the above steps, a data slice and image-based method is realized. Hash combination sample homology analysis method reduces labor and time cost, and solves the problem of lagging time and high dependence on manual analysis in existing APT homologous sample analysis.

【技术实现步骤摘要】
基于数据切片及图像哈希组合的样本同源分析方法一.
本专利技术提供一种基于数据切片及图像哈希组合的样本同源分析方法,它涉及恶意样本同源分析方法,属于网络安全
二.
技术介绍
近年来,网络安全形势愈发严峻,针对于政府,军工,教育部门,科研单位及企业的高级持续性威胁(APT-AdvancedPersistentThreat)事件不断增涨,各APT组织的恶意样本变种及新型恶意样本层出不穷,通过研究恶意样本间的关联与同源分析,揭示恶意代码攻击背后的开发者或攻击组织的关系,可以为网络攻击溯源提供更加全面的数据支持。面对越来越多的APT事件,攻击者溯源及恶意样本的同源分析逐渐成为研究热点,目前对样本的同源分析方法主要分为人工识别,特征码识别及通过机器学习算法训练大量同类样本建立模型的方法,针对目前常见的同源分析方法,存在的缺点和局限性如下:1.人工识别同源样本对分析人员要求较高,需要熟悉已知APT样本的特征,面对如今海量的高危样本,分析人员的数量远远不足,无法高效的分析完近期的样本容易产生滞后问题,增加对攻击事件溯源追踪的难度。2.使用机器学习算法,通过大量的同类样本训练出模型用于同源样本本文档来自技高网...

【技术保护点】
1.一种基于数据切片及图像哈希组合的样本同源分析方法,其特征在于:其步骤如下:步骤101:收集已知APT组织的恶意样本,分为测试数据集和训练数据集两部分并标记属于的组织;步骤102:根据样本格式过滤并还原处理训练数据集的样本;步骤103:对过滤后的训练数据集的样本进行静态分析,提取数据切片;步骤104:对过滤后的样本及其他训练数据集的样本进行动态分析,提取数据切片;步骤105:对训练数据集中每个样本所有的数据切片进行白名单数据切片的过滤及人工审核整理切片格式;步骤106:格式化所有数据切片为灰度图形式并按功能分类;步骤107:使用图像哈希方法计算所有灰度图并分类保存计算结果到指纹数据库;步骤1...

【技术特征摘要】
1.一种基于数据切片及图像哈希组合的样本同源分析方法,其特征在于:其步骤如下:步骤101:收集已知APT组织的恶意样本,分为测试数据集和训练数据集两部分并标记属于的组织;步骤102:根据样本格式过滤并还原处理训练数据集的样本;步骤103:对过滤后的训练数据集的样本进行静态分析,提取数据切片;步骤104:对过滤后的样本及其他训练数据集的样本进行动态分析,提取数据切片;步骤105:对训练数据集中每个样本所有的数据切片进行白名单数据切片的过滤及人工审核整理切片格式;步骤106:格式化所有数据切片为灰度图形式并按功能分类;步骤107:使用图像哈希方法计算所有灰度图并分类保存计算结果到指纹数据库;步骤108:使用指纹数据库识别测试数据集中的样本所属组织;通过以上步骤,本发明实现了一种基于数据切片及图像哈希组合的样本同源分析方法,达到了高效的从海量样本中过滤识别出重要的样本,减少人工,时间成本的效果,解决了现有APT同源样本分析中存在滞后期,高度依赖人工分析的问题。2.根据权利要求1所述的一种基于数据切片及图像哈希组合的样本同源分析方法,其特征在于:在步骤101中所述的“APT”,它是指AdvancedPersistentThreat,即高级持续性威胁;所述的“训练数据集”,它是指用于建立指纹数据库的样本集;所述的“测试数据集”,它是指用于测试指纹数据库,判断同源结果的样本集;在步骤101中所述的“收集已知APT组织的恶意样本,分为测试数据集和训练数据集两部分并标记属于的组织”,其做法如下:将历史出现过的APT攻击中用到的样本按照各个组织分为两部分,将每个样本标记其对应的APT组织名称。3.根据权利要求1所述的一种基于数据切片及图像哈希组合的样本同源分析方法,其特征在于:在步骤102中所述的“过滤”,它是指筛选出一些通过静态分析无法提取出高质量数据切片的样本,其范围如下:带有无法自动还原的加密壳的样本,经过压缩的样本,经过强混淆的样本;所述的“还原处理”,它是指对一些原本通过静态分析无法提取出高质量数据切片的样本进行自动的格式还原处理,使其在不改变样本整体功能结构的基础上能静态提取出有效的数据切片;在步骤102中所述的“根据样本格式过滤并还原处理训练数据集的样本”,其做法如下:解析样本的文件格式,排除损坏及带有加密壳的样本,对混淆及带有压缩壳的样本进行反混淆,自动脱壳处理。4.根据权利要求1所述的一种基于数据切片及图像哈希组合的样本同源分析方法,其特征在于:在步骤103中所述的“数据切片”,它是指对样本中包含的一组代码序列及非代码序列;所述的“静态分析”,它是指通过解析样本格式并搜索记录样本中包含的所有与规则相符合的数据;在步骤103中所述的“对过滤后的训练数据集的样本进行静态分析,提取数据切片”,其做法如下:解析文件格式,搜索文件数据,按照所定义的切片类型提取对应的数据切片,所定义的类型主要分为数据部分:协议、资源、特征字符串、附加数据;代码部分:进程、线程、网络、内存、注册表、文...

【专利技术属性】
技术研发人员:韩志辉吕志泉梅瑞严寒冰丁丽李佳沈元张帅李志辉张腾陈阳王适文马莉雅高川周昊周彧何永强袁伟华吕承琨李骏杰卞玉捷
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1