一种字符串分布统计方法、系统、设备及计算机存储介质技术方案

技术编号:26762892 阅读:39 留言:0更新日期:2020-12-18 23:17
本申请公开了一种字符串分布统计方法、系统、设备及计算机存储介质,获取训练样本集,训练样本集中包含预设数量的原始文件及每个原始文件的字符串分布统计结果;对原始文件进行降维处理,得到相应的降维文件;基于降维文件及对应的字符串分布统计结果训练预设的机器学习模型,以基于训练好的机器学习模型对目标文件进行字符串分布统计。本申请提供的字符串分布统计方法,在获取训练样本集后,先对原始文件进行降维,再基于降维文件对机器学习模型进行训练,减少了输入给机器学习模型的训练样本的个数,避免了训练样本个数过大时降低机器学习模型的训练效率。本申请提供的字符串分布统计系统、设备及计算机可读存储介质也解决了相应技术问题。

【技术实现步骤摘要】
一种字符串分布统计方法、系统、设备及计算机存储介质
本申请涉及信息处理
,更具体地说,涉及一种字符串分布统计方法、系统、设备及计算机存储介质。
技术介绍
随着服务器、计算机、智能设备等设备的发展,设备所能执行的功能越来越丰富,以服务器为例,服务器在接收到新信息时,可能对新信息进行处理,比如进行信息提取、信息统计等,在此过程中,服务器需要对新信息中的字符串进行分布统计。现有的一种字符串分布统计方法是:基于训练样本集训练预设的机器学习模型,训练样本集中包含原始文件及原始文件对应的字符串分布统计结果,再基于训练好的机器学习模型对目标文件进行分布统计。然而,现有的一种字符串分布统计方法中,在训练样本集中原始文件的总个数大于预设临界值时,会使得机器学习模型的训练速度过于缓慢,影响字符串分布统计方法的处理效率。综上所述,如何提高字符串分布统计方法的处理效率是目前本领域技术人员亟待解决的问题。
技术实现思路
本申请的目的是提供一种字符串分布统计方法,其能在一定程度上解决如何提高字符串分布统计方法的处理效率的技本文档来自技高网...

【技术保护点】
1.一种字符串分布统计方法,其特征在于,包括:/n获取训练样本集,所述训练样本集中包含预设数量的原始文件及每个所述原始文件的字符串分布统计结果;/n对所述原始文件进行降维处理,得到相应的降维文件;/n基于所述降维文件及对应的所述字符串分布统计结果训练预设的机器学习模型,以基于训练好的所述机器学习模型对目标文件进行字符串分布统计。/n

【技术特征摘要】
1.一种字符串分布统计方法,其特征在于,包括:
获取训练样本集,所述训练样本集中包含预设数量的原始文件及每个所述原始文件的字符串分布统计结果;
对所述原始文件进行降维处理,得到相应的降维文件;
基于所述降维文件及对应的所述字符串分布统计结果训练预设的机器学习模型,以基于训练好的所述机器学习模型对目标文件进行字符串分布统计。


2.根据权利要求1所述的方法,其特征在于,所述对所述原始文件进行降维处理,得到降维文件,包括:
计算每个所述原始文件的哈希值;
对所有的所述哈希值进行降维处理,得到所述降维文件。


3.根据权利要求2所述的方法,其特征在于,所述计算每个所述原始文件的哈希值,包括:
计算每个所述原始文件的MD5值。


4.根据权利要求2所述的方法,其特征在于,所述对所有的所述哈希值进行降维处理,包括:
通过HashingTrick算法对所有的所述哈希值进行降维处理。


5.根据权利要求2所述的方法,其特征在于,所述对所有的所述哈希值进行降维处理,包括:
通过PCA算法对所有的所述哈希值进行降维处理。


6.根据权利要求2所述的方法,其特征在于,所述计算每个所述原始文件的哈希值之后,还包括:
建立并保存所述原始文件与所述原始文件对应的哈希值间的对应关系。


7.根据权利要求1所述的方法,其特征在于,所述基于所述降维文件及对应的...

【专利技术属性】
技术研发人员:刘彦南郭开
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1