webshell检测方法及装置、HMM模型训练方法及装置制造方法及图纸

技术编号:20825090 阅读:41 留言:0更新日期:2019-04-10 07:18
本发明专利技术提供webshell检测方法及装置、HMM模型训练方法及装置。所述方法包括:获取待检测的网页访问日志;获取预先训练好的HMM模型,所述训练好的HMM模型用于检测网页访问日志中是否包括webshell;通过所述训练好的HMM模型检测所述待检测的网页访问日志中是否包含webshell。所述方法相较于现有技术中依赖规则库或者“孤岛法”检测webshell的方式来说,检测效果更好,且检测的准确率也比较高。

【技术实现步骤摘要】
webshell检测方法及装置、HMM模型训练方法及装置
本专利技术涉及网络安全
,具体而言,涉及webshell检测方法及装置、HMM模型训练方法及装置。
技术介绍
webshell是网络黑客普遍使用的攻击利用手段之一,通过人工或者规则库筛查从数量较多的网页访问日志中找出webshell攻击行为比较困难。传统的webshell检测主要依赖于规则库模式或者黑名单模式。而规则库和黑名单是由各厂商收集到的webshell程序样本的特征组成。特征则是分析工程师从webshell程序中找到其特有的关键词组合,查找webshell时把请求的特殊url(UniformResourceLocator,统一资源定位符)和参数与规则库中的所有特殊“关键词”进行匹配,如果命中,就可以判定为webshell。基于特殊“关键词”的特征匹配的规则库模式,应对已发现和已分析的webshell效果比较好,但对未周知的和没有收录在规则库中的webshell查找效果不好。相对于传统的webshell检测主要依赖于规则库模式,还有一种检测模式为“孤岛”法。在一个网站的所有url访问中,如果只有极个别用户访问过,那么该访问就可以判定为webshell。“孤岛”法,可以检测出一部分webshell,但黑客攻击手段越来越多,利用webshell的url也多种多样,同时不同的网站开发者命名的url千差万别,导致这种检测方法误报率和漏报率较高。
技术实现思路
本专利技术在于提供一种webshell检测方法及装置、HMM模型训练方法及装置,以缓解webshell的检测效果差的技术问题。本专利技术的实施例通过如下方式实现:第一方面,本专利技术实施例提供一种webshell检测方法,所述方法包括:获取待检测的网页访问日志;获取预先训练好的HMM模型,所述训练好的HMM模型用于检测网页访问日志中是否包括webshell;通过所述训练好的HMM模型检测所述待检测的网页访问日志中是否包含webshell。在本专利技术实施例的技术方案中,通过预先训练好的HMM模型检测网页访问日志中是否包括webshell,由于训练好的HMM模型可用于检测webshell,且由于HMM模型自身具有预测功能,相较于现有技术中依赖规则库或者“孤岛法”检测webshell的方式来说,检测效果更好,且检测的准确率也比较高。结合第一方面,在第一方面的第一种可能的实现方式中,在获取待检测的网页访问日志之前,所述方法还包括:获取样本网页访问日志,所述样本网页访问日志中包括确定包含webshell的网页访问日志和确定未包含webshell的网页访问日志;根据所述样本访问日志对初始的HMM模型进行训练,得到所述训练好的HMM模型。将样本网页访问日志中包括的两种网页访问日志作为训练样本,可以依据这些训练样本对初始的HMM模型进行训练,以使训练好的HMM模型可用于检测webshell。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据所述样本访问日志对HMM模型进行训练包括:对所述样本访问日志进行分析,提取出多个样本访问序列,每个样本访问序列中包含用于表征webshell攻击行为的可观测状态和隐藏状态;将所述多个样本序列作为数据集输入到所述HMM模型中进行训练。通过分析提取包含用于识别webshell的状态样本的样本访问序列,作为数据集对HMM模型进行训练,以使HMM模型根据数据集的特点进行训练从而得到训练好的HMM模型。结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,对所述样本访问日志进行分析,提取出多个样本访问序列,包括:对确定包含webshell的网页访问日志和确定未包含webshell的网页访问日志进行比较分析,确定用于表征webshell攻击的可观测状态和隐藏状态;根据所述可观测状态和所述隐藏状态从所述确定包含webshell的网页访问日志中提取出所述多个样本访问序列。结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述可观测状态包括:webshell的访问操作、webshell的http请求方法以及webshell的访问结果状态码;所述隐藏状态包括webshell访问的开始、持续、结束或者正常访问。结合第一方面的第一种可能的实现方式,在第一方面的第五种可能的实现方式中,在得到训练好的HMM模型后,所述方法还包括:按照预设规则从所述样本访问日志中确定出多个验证访问序列;将所述多个验证访问序列作为验证数据集输入所述训练好的HMM模型中,得到所述训练好的HMM模型对所述验证数据集中是否包含webshell的识别结果;根据所述识别结果分析所述训练好的HMM模型的识别准确率。通过多个验证访问序列对训练好的HMM模型进行验证,以得到训练好的HMM模型的识别准确率,进而可以根据识别准确度对训练好的HMM模型作进一步优化等。第二方面,本专利技术实施例提供一种HMM模型训练方法,包括:获取样本网页访问日志,所述样本网页访问日志中包括确定包含webshell的网页访问日志和确定未包含webshell的网页访问日志;根据所述样本访问日志对初始的HMM模型进行训练,得到训练好的HMM模型。根据样本访问日志对初始的HMM模型进行训练,从而使训练好的HMM模型可以用于识别webshell。结合第二方面,在第二方面的第一种可能的实现方式中,根据所述样本访问日志对初始的HMM模型进行训练包括:对确定包含webshell的网页访问日志和确定未包含webshell的网页访问日志进行比较分析,确定用于表征webshell攻击的可观测状态和隐藏状态;根据所述可观测状态和所述隐藏状态从所述确定包含webshell的网页访问日志中提取出多个样本访问序列,每个样本访问序列中包含用于表征webshell攻击行为的可观测状态和隐藏状态;将所述多个样本访问序列作为数据集输入到所述HMM模型中进行训练,得到训练好的HMM模型。第三方面,本专利技术实施例提供一种webshell检测装置,所述装置包括用于实现第一方面所述的方法的功能模块。第四方面,本专利技术还提供一种HMM模型训练装置,所述装置包括用于实现第二方面所述的方法的功能模块。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举本专利技术实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的HMM模型训练方法流程图;图2为本专利技术实施例提供的webshell检测方法流程图;图3为本专利技术实施例提供的HMM模型训练装置结构示意图;图4为本专利技术实施例提供的webshell检测装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详本文档来自技高网...

【技术保护点】
1.一种webshell检测方法,其特征在于,所述方法包括:获取待检测的网页访问日志;获取预先训练好的HMM模型,所述训练好的HMM模型用于检测网页访问日志中是否包括webshell;通过所述训练好的HMM模型检测所述待检测的网页访问日志中是否包含webshell。

【技术特征摘要】
1.一种webshell检测方法,其特征在于,所述方法包括:获取待检测的网页访问日志;获取预先训练好的HMM模型,所述训练好的HMM模型用于检测网页访问日志中是否包括webshell;通过所述训练好的HMM模型检测所述待检测的网页访问日志中是否包含webshell。2.根据权利要求1所述的检测方法,其特征在于,在获取待检测的网页访问日志之前,所述方法还包括:获取样本网页访问日志,所述样本网页访问日志中包括确定包含webshell的网页访问日志和确定未包含webshell的网页访问日志;根据所述样本访问日志对初始的HMM模型进行训练,得到所述训练好的HMM模型。3.根据权利要求2所述的检测方法,其特征在于,根据所述样本访问日志对HMM模型进行训练包括:对所述样本访问日志进行分析,提取出多个样本访问序列,每个样本访问序列中包含用于表征webshell攻击行为的可观测状态和隐藏状态;将所述多个样本序列作为数据集输入到所述HMM模型中进行训练。4.根据权利要求3所述的检测方法,其特征在于,对所述样本访问日志进行分析,提取出多个样本访问序列,包括:对确定包含webshell的网页访问日志和确定未包含webshell的网页访问日志进行比较分析,确定用于表征webshell攻击行为的可观测状态和隐藏状态;根据所述可观测状态和所述隐藏状态从所述确定包含webshell的网页访问日志中提取出所述多个样本访问序列。5.根据权利要求4所述的检测方法,其特征在于,所述可观测状态包括:webshell的访问操作、webshell的http请求方法以及webshell的访问结果状态码;所述隐藏状态包括webshell访问的开始、持续、结束或者正常访问。6.根据权利要求2所述的检测方法,其特征在于,在得到训练好的HMM模型后,所述方法还包括:按照预设规则从所述样本访问日志中确定出多...

【专利技术属性】
技术研发人员:张丹杨旭
申请(专利权)人:北京知道创宇信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1