基于深度学习和半监督学习的webshell检测方法及装置制造方法及图纸

技术编号：19486823 阅读：26 留言：0更新日期：2018-11-17 11:31

基于深度学习和半监督学习的webshell检测方法及装置，获取原始的训练样本，选取有标记样本进行分词处理，通过卡方检验分析特征词与标签之间的相关性，选择相关性最强的前K个特征词作为筛选特征词；采用筛选特征词对未标记样本进行特征词筛选，作为未标记样本特征；对获取的未标记样本特征使用神经网络算法训练，获得各个未标记样本的文本向量；使用无监督方法训练单分类SVDD模型，优化超球面半径最小化，最大情况包含未标记样本；对于新的标记样本，运用在线学习方式增量训练SVDD模型，修正单分类SVDD模型；将最新模型用于新样本的预测。本发明专利技术能够有效改善传统webshell检测的漏报率和误报率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习和半监督学习的webshell检测方法及装置
本专利技术涉及webshell检测
，具体涉及一种基于深度学习和半监督学习的webshell检测方法及装置。
技术介绍
随着互联网的发展，基于B/S架构的Web应用迅速普及，包括应用在政府、银行、运营商、电商，以及各大门户网站。由于不同的Web系统研发人员水平差异，在设计过程中难免对安全问题欠缺考虑，造成Web安全问题频发。常见的安全威胁有：SQL注入漏洞、上传文件漏洞、提交表单漏洞、跨站脚本攻击等。入侵者在获得Web系统漏洞后，会通过上传Webshell来获得Web服务器的操作权限。对于入侵者来说，Webshell就是一个后门程序，通常是ASP、PHP、JSP等网页脚本，入侵实施后，首先在网页服务器的Web目录下面放置脚本文件，然后可以通过Web页面对网站服务器进行控制。由于Webshell操作不会在系统安全日志中留下记录，并且与正常网页文件混在一起，一般管理员很难看出入侵痕迹。在Web安全检测领域，由于缺少样本，很难建立精准的监督学习模型，而无监督学习会造成误报率高的问题，需要大量的安全工程师分析过滤机器学习的警告，分析结果存在人工误差。由于Web攻击方式多变，传统的预测方式难以应对复杂的真实环境。在机器学习领域，学者公认“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”。公知的，卡方检验是一种常见的特征选择方法，是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。卡...

【技术保护点】
1.基于深度学习和半监督学习的webshell检测方法，其特征在于：所述检测方法包括以下步骤：步骤一：获取包含有标记和无标记的样本，选取有标记样本进行分词处理，并通过卡方检验分析特征词与标签之间的相关性，选择相关性最大的前K个特征词作为筛选特征词；步骤二：采用筛选特征词对未标记样本进行特征词筛选，作为未标记样本特征；步骤三：对获取的未标记样本特征使用神经网络算法Doc2vec训练，获得各个未标记样本的文本向量；步骤四：对未标记样本的文本向量使用无监督学习方法训练单分类SVDD模型，优化超球面半径最小化，最大情况包含未标记样本；步骤五：对于新的标记样本，运用在线学习方式增量训练SVDD模型，修正单分类SVDD模型；步骤六：使用经过修正的单分类SVDD模型，对新样本进行预测。

【技术特征摘要】
1.基于深度学习和半监督学习的webshell检测方法，其特征在于：所述检测方法包括以下步骤：步骤一：获取包含有标记和无标记的样本，选取有标记样本进行分词处理，并通过卡方检验分析特征词与标签之间的相关性，选择相关性最大的前K个特征词作为筛选特征词；步骤二：采用筛选特征词对未标记样本进行特征词筛选，作为未标记样本特征；步骤三：对获取的未标记样本特征使用神经网络算法Doc2vec训练，获得各个未标记样本的文本向量；步骤四：对未标记样本的文本向量使用无监督学习方法训练单分类SVDD模型，优化超球面半径最小化，最大情况包含未标记样本；步骤五：对于新的标记样本，运用在线学习方式增量训练SVDD模型，修正单分类SVDD模型；步骤六：使用经过修正的单分类SVDD模型，对新样本进行预测。2.根据权利要求1所述的基于深度学习和半监督学习的webshell检测方法，其特征在于：所述步骤一中，收集webshell样本和正常样本，使用卡方检验剔除与区分是不是webshell攻击相关性较小的词。3.根据权利要求1所述的基于深度学习和半监督学习的webshell检测方法，其特征在于：所述步骤一中，选取有标记样本作为卡方检验样本，卡方检验样本包括有标记的正常数据和webshell数据。4.根据权利要求1所述的基于深度学习和半监督学习的webshell检测方法，其特征在于：所述步骤二中，未标记样本作为初始训练集，包含大量的正常样本，可能存在少量webshell样本，所述筛选特征词是通过卡方检验选择的与标签相关性高的特征词，再次使用卡方检验获取的筛选特征词过滤初始训练集，所述步骤三中，使用神经网络算法Doc2vec训练过滤后的样本，获取训练样本的文本向量。5.根据权利要求1所述的基于深度学习和半监督学习的webshell检测方法，其特征在于：所述步骤四中，在无监督学习阶段，使用初始训练集W0的文本向...

【专利技术属性】
技术研发人员：吴斌，赵力，朱和稳，韩传富，
申请(专利权)人：北京网思科平科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人