一种基于内容分块的工控恶意代码检测方法技术

技术编号：38090594 阅读：10 留言：0更新日期：2023-07-06 09:02

本发明专利技术公开了一种基于内容分块的工控恶意代码检测方法，包括：每个用户处理恶意代码样本；按文件数据流读取文件，使用两个并行滑动的数据窗口；每读取一位，计算一次窗口内的哈希，若等于边界判定的特殊哈希值，则结束当前滑动；将每16次滑动的哈希值加起来求和，得到总哈希；重复直到完成当前文件的分块工作；使用汉明距离判断每个恶意代码哈希值的相似度，生成若干个聚类；每个用户发送查询请求，将哈希值发往其他用户；其他用户根据发来的哈希，与自己生成的聚类比较，得到查询的恶意代码的具体类型，并反馈；查询用户根据返回的查询结果，优化当前代码的分类。本发明专利技术可保护两方的数据隐私，为恶意代码检测模型提供训练数据。据。据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于内容分块的工控恶意代码检测方法

[0001]本专利技术属于工控
，尤其涉及一种基于内容分块的工控恶意代码检测方法。

技术介绍

[0002]恶意代码检测一直是工控安全的重要组成部分。近年来，随着恶意代码种类的逐渐增多，业务量逐渐增大，目前主流的人工检测方法和软件检测方法显现出效率较低、检测率不高的问题。因此机器学习训练恶意检测代码成为了新的热门技术方向。但因为工控领域的数据隐私性更强，公开的数据集更少，这使得机器学习中的数据质量无法保证，数据量也有差别，这造成了最后整体模型的性能较差。
[0003]恶意代码是指故意编制或设置的，对网络或系统会产生危险或潜在威胁的计算机代码。因此，恶意代码检测一直是工控安全的重要研究领域。然而，传统的恶意代码检测方法大部分是人工分析和软件识别。因此一旦出现未被检测人员所知的新型恶意代码，就能很容易绕过检测，对工控安全造成重大影响。也因此，近几年关于机器学习训练模型来检测恶意代码的方法也越来越多。
[0004]众所周知，决定一个模型的好坏的因素，不单是模型本身结构是否合理，更重要的是训练数据的质量好坏。联邦学习也是如此，如果各个客户的数据集都划分的很好，那么最后联邦学习得到的总模型的效果也会很好。但由于商业价值、法律法规要求等等原因，拥有更好的数据集的客户不愿意让其他客户使用自己的数据集，其他客户也会因为自己数据集存在缺陷而无法得到满意的训练结果，这造成不同客户之间训练的模型性能差距很大，数据集更差的客户训练的模型无法全面的检测恶意代码。
[0005]...

【技术保护点】

【技术特征摘要】
1.一种基于内容分块的工控恶意代码检测方法，其特征在于，包括以下步骤：S1：每个用户处理自己的恶意代码样本；S2：按文件数据流读取文件，使用两个并行滑动的数据窗口，一个读取奇数位的字节，一个读取偶数位的字节；S3：每读取一位，计算一次窗口内的哈希，若等于边界判定的特殊哈希值，则结束当前滑动；S4：滑动结束后，将每16次滑动的哈希值加起来求和，得到的结果作为总哈希；S5：重复S2
‑
S4步直到整个文件流读取完毕，完成当前文件的分块工作；S6：将每个恶意代码文件的标志性恶意代码段的哈希值取出，使用汉明距离判断每个恶意代码哈希值的相似度，生成若干个聚类；S7：每个用户发送查询请求，将自己的恶意代码的哈希值发往其他用户；S8：其他用户根据发来的哈希，与自己生成的聚类比较，得到查询的恶意代码的具体类型，反馈给查询用户；S9：查询用户根据返回的查询结果，优化当前代码的分类，扩充自己的数据集，最后按照深度学习卷积神经网络开始进行模型的训练和测试。2.根据权利要求1所述的基于内容分块的工控恶意代码检测方法，其特征在于，根据公式hash[i]＝...

【专利技术属性】
技术研发人员：李肯立，张惟盛，杨圣洪，余思洋，蔡宇辉，杨志邦，唐伟，段明星，吕婷，
申请(专利权)人：湖南匡安网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人