一种基于深度学习与遗传算法的浏览器样本集获取方法技术

技术编号：27260506 阅读：16 留言：0更新日期：2021-02-06 11:17

本发明专利技术公开了一种浏览器模糊测试样本集获取方法，包括以下步骤：（1）对文档进行预处理，统计html文件元素，得到输入向量与元素统计数据；（2）使用LSTM神经网络进行深度学习，将生成的样本解码得到生成样本。（3）将生成样本进行树状编码得到父代种群，计算适应度函数。（4）使用优化遗传算子对父代种群进行优化，直到满足终止结果。该方法可以用于浏览器漏洞挖掘，其挖掘方向更有针对性，挖掘效率也更高。挖掘效率也更高。挖掘效率也更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习与遗传算法的浏览器样本集获取方法

[0001]本专利技术涉及一种基于深度学习与遗传算法的浏览器样本集获取方法，属于漏洞挖掘

技术介绍

[0002]浏览器作为上网的必要工具，占据十分重要的地位，其受到安全威胁与攻击的频率也要高于其他软件。在常见的攻击场景中，攻击者通过攻击浏览器或包含链接的其他文件使浏览器错误解析数据，通过攻击浏览器内存获得缓存数据或使用浏览器作为跳板解析通信协议、攻击服务器与数据库。浏览器泄露的内存中可能包括个人账号、密码等敏感信息，通过攻击浏览器服务器与数据库有可能获得大量用户数据。对浏览器进行漏洞挖掘可以提前暴露浏览器的安全隐患，并进行针对新的更新，从而加强浏览器安全指数。传统的针对浏览器的漏洞挖掘主要技术包括基于生成的模糊测试技术与基于变异的模糊测试技术。基于生成的模糊测试技术能有效覆盖目标程序的几乎所有输入点并进行无差别的挖掘，但是其没有任何指向性，得到的Crash也往往无法利用；基于变异的模糊测试技术能针对某一类漏洞进行针对性的挖掘，但其覆盖输入点较少，而且十分依赖作为变异基础的种子文件。使用深度学习与各类算法对样本集进行优化能够获得更有效的样本，使得漏洞挖掘效率更高。目前这种方法也面临着三个问题，一是针对已知样本进行特异性优化，无法普适性的挖掘特定种类漏洞。第二是无法绕过目标程序中的防护措施，当遇见循环或反复调用时浪费计算资源。另外一点则是并且使用过于复杂的网络与算法会降低样本生成的速度，从而影响漏洞挖掘效率。
[0003]基于以上问题，我们提出了一种基于...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习与遗传算法的浏览器模糊测试样本集获取方法，其特征在于包括以下步骤：步骤一：对文件进行预处理，并建立元素库；步骤二：在文件向量化后，送入深度学习模型进行训练，并对模型相关参数进行优化后得到生成模型；步骤三：使用生成模型生成样本集，对于生成的样本集进行样本过滤；步骤四：对过滤后的样本进行树状编码，并使用保守估计策略计算样本的适应度函数值；步骤五：使用轮盘赌选择与最优保存策略进行选择算子运算；步骤六：使用两次单点交叉代替一次双点交叉进行交叉算子运算；步骤七：使用基本位变异与自重组变异进行变异算子运算；步骤八：解码运算后的种群，获得此时优化后的模糊测试样本集；步骤九：对样本进行过滤，丢弃不符合html格式规范的文件；步骤十：利用得到的此时的样本集对浏览器进行模糊测试；步骤十一：对当代种群进行终止判定，满足终止条件则得到优化后的种群，否则重复步骤五到步骤十；步骤十二：使用优化后的种群进行模糊测试，获得测试结果。2.根据权利1所述的基于深度学习与遗传算法的浏览器模糊测试样本集获取方法，其特征在于：对文档进行预处理步骤中，针对标签元素，将其标签本身与便签属性分开记录；针对插入的恶意代码，使用外层标签作为键值的组成部分，将代码本身作为文本存储；在元素存储时，将外层标签与自定义编号作为唯一键值；在神经网络学习时，采用交叉熵作为损失函数，使用RMSProp算法作为优化算法；在样本生成时，通过检测...

【专利技术属性】
技术研发人员：方勇，刘亮，张磊，朱光夏天，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人