当前位置: 首页 > 专利查询>之江实验室专利>正文

数据上报方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38999512 阅读:8 留言:0更新日期:2023-10-07 10:31
本申请涉及一种数据上报方法、装置、计算机设备和存储介质,通过获取文件的待上报数据,提取待上报数据的特征值,根据特征值将待上报数据分类至不同的桶文件中进行存储,在桶文件中根据相似度对待上报数据进行聚类,得到多组待上报数据簇,根据每组待上报数据簇下正常数据样本与恶意数据样本的占比,对每组待上报数据簇进行评分,根据分数选取多组待上报数据簇进行上报,通过聚类减少了重复或者相似的无用数据的上报,通过评分对于上报的数据进行了过滤,解决了相关技术中文件数据上报效率较低的问题,降低存储数据需要的空间,提升了文件数据上报的效率。件数据上报的效率。件数据上报的效率。

【技术实现步骤摘要】
数据上报方法、装置、计算机设备和存储介质


[0001]本申请涉及数据上报
,特别是涉及一种数据上报方法、装置、计算机设备和存储介质。

技术介绍

[0002]在云场景中有很多服务需要上报云服务器的文件数据,但将云服务器中的海量文件数据全部上报的成本较高,且全量上报需要占用检测引擎更多的资源。因此需要根据不同的应用场景,有选择性地对文件数据进行上报。
[0003]现有技术中,对于云场景的文件数据上报,通常根据历史经验数据对文件数据进行选择,从而完成对上报的文件数据的选取。然而这种方法的上报效率较低,且容易忽略重要的文件数据,适用性较低。
[0004]目前,对于相关技术中,文件数据上报效率较低的问题,尚未提出有效的解决办法。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高文件数据上报效率的数据上报方法、装置、计算机设备和计算机可读存储介质。
[0006]第一方面,本申请提供了一种数据上报方法。所述方法包括:获取文件的待上报数据;提取所述待上报数据的特征值;根据所述特征值,将所述待上报数据分类至不同的桶文件中进行存储;对同一所述桶文件下的所述待上报数据进行相似度计算,根据所述相似度对所述待上报数据进行聚类,生成多组待上报数据簇,其中,所述待上报数据簇下包含正常数据样本与恶意数据样本;根据每组所述待上报数据簇下所述正常数据样本与所述恶意数据样本的占比,对每组所述待上报数据簇进行评分,根据分数选取多组所述待上报数据簇进行上报。
[0007]在其中一个实施例中,所述待上报数据包括:文件上报路径数据与恶意文件路径数据,所述文件上报数据与所述恶意文件路径数据的数据字段包括所述文件的第一识别码、文件名、文件路径、目录以及生成时间。
[0008]在其中一个实施例中,提取所述待上报数据的特征值包括:以第一识别码为主键,提取所述文件的目录;对所述目录进行分割,得到多个字节片段;计算所述多个字节片段的第二识别码,将多个所述第二识别码进行合并,生成所述待上报数据的第一特征值。
[0009]在其中一个实施例中,提取所述待上报数据的特征值还包括:对所述第一特征值的每行进行多次随机打乱;
将每次打乱后得到的所述第一特征值对应的第一集合映射到第二集合中,其中,所述第二集合中的每个映射值之间互不重复;对所述第二集合中的映射值按照从小到大的顺序进行查找,直至所述查找到的所述映射值对应的所述第一特征值为第一预设值;获取查找到的所述映射值对应的位数编号,将多个所述位数编号进行合并,得到第二特征值;根据所述第二特征值,对所述待上报数据进行分类。
[0010]在其中一个实施例中,在所述桶文件中对所述待上报数据进行聚类包括:选取一条未聚类的所述待上报数据,计算选取的所述待上报数据与同一所述桶文件中的已聚类的多组所述待上报数据簇的相似度;当所述相似度大于第一阈值时,将选取的所述待上报数据归并至相似的所述待上报数据簇中;当所述相似度小于第一阈值时,将选取的所述待上报数据新建为一个所述待上报数据簇。
[0011]在其中一个实施例中,根据分数选取多组所述待上报数据簇进行上报包括:选取前N个分数最高的所述待上报数据簇进行上报,或者,选取分数超过第二阈值的所述待上报数据簇进行上报。
[0012]在其中一个实施例中,将所述待上报数据簇进行上报包括:根据所述待上报数据簇中的所述待上报数据的路径,将所述待上报数据切分为多个目录名称;根据所述目录名称,对所述路径进行正则替代,并计算替代后所述路径的合并程度;当所述合并程度低于第三阈值时,继续对所述路径进行正则替代,直至替代后所述路径的合并程度高于第三阈值;提取合并路径的正则表达式,计算所述正则表达式对于对应的所述待上报数据的覆盖率,以及对于所述待上报数据簇中所有所述待上报数据的全局覆盖率;根据所述覆盖率与所述全局覆盖率,选取所述正则表达式,根据选取的所述正则表达式对所述待上报数据簇进行上报。
[0013]第二方面,本申请还提供了一种数据上报装置。所述装置包括:获取模块,用于获取文件的待上报数据;提取模块,用于提取所述待上报数据的特征值;分桶模块:用于根据所述特征值,将所述待上报数据分类至不同的桶文件中进行存储;聚类模块,用于对同一所述桶文件下的所述待上报数据进行相似度计算,根据所述相似度对所述待上报数据进行聚类,生成多组待上报数据簇,其中,所述待上报数据簇下包含正常数据样本与恶意数据样本;评分模块,用于根据每组所述待上报数据簇下所述正常数据样本与所述恶意数据样本的占比,对每组所述待上报数据簇进行评分,根据分数选取多组所述待上报数据簇进行上报。
[0014]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取文件的待上报数据;提取所述待上报数据的特征值;根据所述特征值,将所述待上报数据分类至不同的桶文件中进行存储;对同一所述桶文件下的所述待上报数据进行相似度计算,根据所述相似度对所述待上报数据进行聚类,生成多组待上报数据簇,其中,所述待上报数据簇下包含正常数据样本与恶意数据样本;根据每组所述待上报数据簇下所述正常数据样本与所述恶意数据样本的占比,对每组所述待上报数据簇进行评分,根据分数选取多组所述待上报数据簇进行上报。
[0015]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取文件的待上报数据;提取所述待上报数据的特征值;根据所述特征值,将所述待上报数据分类至不同的桶文件中进行存储;对同一所述桶文件下的所述待上报数据进行相似度计算,根据所述相似度对所述待上报数据进行聚类,生成多组待上报数据簇,其中,所述待上报数据簇下包含正常数据样本与恶意数据样本;根据每组所述待上报数据簇下所述正常数据样本与所述恶意数据样本的占比,对每组所述待上报数据簇进行评分,根据分数选取多组所述待上报数据簇进行上报。
[0016]上述数据上报方法、装置、计算机设备和存储介质,通过获取文件的待上报数据,提取待上报数据的特征值,根据特征值将待上报数据分类至不同的桶文件中进行存储,在桶文件中根据相似度对待上报数据进行聚类,得到多组待上报数据簇,根据每组待上报数据簇下正常数据样本与恶意数据样本的占比,对每组待上报数据簇进行评分,根据分数选取多组待上报数据簇进行上报,通过聚类减少了重复或者相似的无用数据的上报,通过评分对于上报的数据进行了过滤,解决了相关技术中文件数据上报效率较低的问题,降低存储数据需要的空间,提升了文件数据上报的效率。
附图说明
[0017]图1为一个实施例中数据上报方法的应用环境图;图2为一个实施例中数据上报方法的流程示意图;图3为一个实施例中数据上报方法的第一特征值计算流程图;图4为一个实施例中数据上报方法的第二特征值计算流程图;图5为一个实施例中数据上报方法的分桶聚类流程图;图6为一个实施例中数据上报方法的正则表达式提取图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据上报方法,其特征在于,包括:获取文件的待上报数据;提取所述待上报数据的特征值;根据所述特征值,将所述待上报数据分类至不同的桶文件中进行存储;对同一所述桶文件下的所述待上报数据进行相似度计算,根据所述相似度对所述待上报数据进行聚类,生成多组待上报数据簇,其中,所述待上报数据簇下包含正常数据样本与恶意数据样本;根据每组所述待上报数据簇下所述正常数据样本与所述恶意数据样本的占比,对每组所述待上报数据簇进行评分,根据分数选取多组所述待上报数据簇进行上报。2.根据权利要求1所述的数据上报方法,其特征在于,所述待上报数据包括:文件上报路径数据与恶意文件路径数据,所述文件上报数据与所述恶意文件路径数据的数据字段包括所述文件的第一识别码、文件名、文件路径、目录以及生成时间。3.根据权利要求1所述的数据上报方法,其特征在于,提取所述待上报数据的特征值包括:以第一识别码为主键,提取所述文件的目录;对所述目录进行分割,得到多个字节片段;计算所述多个字节片段的第二识别码,将多个所述第二识别码进行合并,生成所述待上报数据的第一特征值。4.根据权利要求3所述的数据上报方法,其特征在于,提取所述待上报数据的特征值还包括:对所述第一特征值的每行进行多次随机打乱;将每次打乱后得到的所述第一特征值对应的第一集合映射到第二集合中,其中,所述第二集合中的每个映射值之间互不重复;对所述第二集合中的映射值按照从小到大的顺序进行查找,直至所述查找到的所述映射值对应的所述第一特征值为第一预设值;获取查找到的所述映射值对应的位数编号,将多个所述位数编号进行合并,得到第二特征值;根据所述第二特征值,对所述待上报数据进行分类。5.根据权利要求1所述的数据上报方法,其特征在于,在所述桶文件中对所述待上报数据进行聚类包括:选取一条未聚类的所述待上报数据,计算选取的所述待上报数据与同一所述桶文件中的已聚类的多组所述待上报数据簇的相似度;当所述相似度大于第一阈值时,将选取的所述待上报数据归并至相似的所述待上报数据簇中;当所述相似度小于第一阈值时,将...

【专利技术属性】
技术研发人员:韩孟玲白冰张兴明申大坤孙天宁
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1