异常网页文件的识别方法及装置制造方法及图纸

技术编号:36541421 阅读:15 留言:0更新日期:2023-02-01 16:41
本公开涉及一种异常网页文件的识别方法、装置、电子设备及计算机可读介质。该方法包括:通过多个网页文件对应的访问行为建立跳转关系图和访问关系图;基于所述跳转关系图和所述访问关系图生成所述多个网页文件中每个网页文件的特征数据;将网页文件对应的特征数据输入异常网页识别模型中,生成异常概率;将异常概率大于阈值的网页文件确定为异常网页文件。本申请涉及的异常网页文件的识别方法、装置、电子设备及计算机可读介质,能够通过正常页面和异常页面访问行为上的差异来实现异常页面的检测,提高异常页面检测效率和准确度。提高异常页面检测效率和准确度。提高异常页面检测效率和准确度。

【技术实现步骤摘要】
异常网页文件的识别方法及装置


[0001]本公开涉及计算机信息处理领域,具体而言,涉及一种异常网页文件的识别方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]Webshell作为一种网页后门,通常是以asp、php、jsp或者cgi等网页文件形式存在的。这些异常网页文件隐藏于正常的网页文件中,攻击者可以通过浏览器或者其它客户端来访问这些后门网页文件,并且通过访问请求中所携带的参数来执行一些命令,从而可以获取web服务器的一些信息,甚至可以完全控制web服务器。
[0003]现在有两种异常网页文件的识别方法:1.主动爬取web站点内的网页,并根据网页间的链接关系建立链接关联树,如果用户请求的某个URL不存在于链接关联树中则将其判定为webshell。2.遍历web站点内的所有页面,提取出每个页面的关联信息,并用关联信息识别出无关联页面,并将其认定为 webshell页面。
[0004]但是,仅依靠爬虫难以获取一个站点内所有的页面,据此建立的链接关联树及关联关系是不完整的,容易将一些正常的页面误报为webshell页面,并且攻击者也可以通过一定手段在其他页面中加入指向webshell页面的链接逃避这种检测。
[0005]因此,需要一种新的异常网页文件的识别方法、装置、电子设备及计算机可读介质。
[0006]在所述
技术介绍
部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0007]有鉴于此,本申请提供一种异常网页文件的识别方法、装置、电子设备及计算机可读介质,能够通过正常页面和异常页面访问行为上的差异来实现异常页面的检测,提高异常页面检测效率和准确度。
[0008]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0009]根据本申请的一方面,提出一种异常网页文件的识别方法,该方法包括:通过多个网页文件对应的访问行为建立跳转关系图和访问关系图;基于所述跳转关系图和所述访问关系图生成所述多个网页文件中每个网页文件的特征数据;将网页文件对应的特征数据输入异常网页识别模型中,生成异常概率;将异常概率大于阈值的网页文件确定为异常网页文件。
[0010]在本申请的一种示例性实施例中,通过多个网页文件对应的访问行为建立跳转关系图和访问关系图,包括:提取所述多个网页文件的访问行为;根据所述访问行为中原始页面、访问页面和其对应的跳转关系生成所述跳转关系图;根据所述访问行为中源IP、访问页面和其对应的访问关系生成所述访问关系图。
[0011]在本申请的一种示例性实施例中,根据所述访问行为中原始页面、跳转页面和其对应的跳转关系生成所述跳转关系图,包括:在访问行为对应的请求报文中提取referer字段;根据所述referer字段提取原始页面;将所述原始页面和所述访问页面作为顶点,将访问行为作为边;通过顶点和边的集合生成所述跳转关系图。
[0012]在本申请的一种示例性实施例中,根据所述访问行为中源IP、跳转页面和其对应的访问关系生成所述访问关系图,包括:在访问行为对应的tcp连接关系中提取所述源IP;将所述源IP和所述访问页面作为顶点,将访问行为作为边;通过顶点和边的集合生成所述访问关系图。
[0013]在本申请的一种示例性实施例中,基于所述跳转关系图和所述访问关系图生成所述多个网页文件中每个网页文件的特征数据,包括:根据所述跳转关系图生成每个网页文件的一阶入度和二阶入度;根据所述访问关系图生成每个网页文件的访问入度;通过所述一阶入度、所述二阶入度和所述访问入度生成所述特征数据。
[0014]在本申请的一种示例性实施例中,将网页文件对应的特征数据输入异常网页识别模型中,生成异常概率,还包括:通过多个网页文件对应的特征数据生成训练样本;通过训练样本对孤立森林模型进行训练;在训练完毕后生成所述异常网页识别模型。
[0015]在本申请的一种示例性实施例中,将网页文件对应的特征数据输入异常网页识别模型中,生成异常概率,包括:通过网页文件的所述特征数据中的一阶入度、二阶入度、访问入度生成三维向量;将所述三维向量输入所述异常网页识别模型中,生成网页文件为异常网页文件的异常概率。
[0016]在本申请的一种示例性实施例中,还包括:通过所述异常网页文件生成警示信息。
[0017]在本申请的一种示例性实施例中,通过所述异常网页文件生成警示信息,包括:提取所述异常网页文件对应的页面路径;通过所述异常网页文件、网页路径生成所述警示信息。
[0018]根据本申请的一方面,提出一种异常网页文件的识别装置,该装置包括:图模块,用于通过多个网页文件对应的访问行为建立跳转关系图和访问关系图;特征模块,用于基于所述跳转关系图和所述访问关系图生成所述多个网页文件中每个网页文件的特征数据;概率模块,用于将网页文件对应的特征数据输入异常网页识别模型中,生成异常概率;识别模块,用于将异常概率大于阈值的网页文件确定为异常网页文件。
[0019]根据本申请的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
[0020]根据本申请的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
[0021]根据本申请的异常网页文件的识别方法、装置、电子设备及计算机可读介质,通过多个网页文件对应的访问行为建立跳转关系图和访问关系图;基于所述跳转关系图和所述访问关系图生成所述多个网页文件中每个网页文件的特征数据;将网页文件对应的特征数据输入异常网页识别模型中,生成异常概率;将异常概率大于阈值的网页文件确定为异常网页文件的方式,能够通过正常页面和异常页面访问行为上的差异来实现异常页面的检测,提高异常页面检测效率和准确度。
[0022]应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
[0023]通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是根据一示例性实施例示出的一种异常网页文件的识别方法及装置的系统框图。
[0025]图2是根据一示例性实施例示出的一种异常网页文件的识别方法的流程图。
[0026]图3是根据另一示例性实施例示出的一种异常网页文件的识别方法的流程图。
[0027]图4是根据另一示例性实施例示出的一种异常网页文件的识别方法的流程图。
[0028]图5是根据一示例性实施例示出的一种异常网页文件的识别装置的框图。
[0029]图6是根据一示例性实施例示出的一种电子设备的框图。
...

【技术保护点】

【技术特征摘要】
1.一种异常网页文件的识别方法,其特征在于,包括:通过多个网页文件对应的访问行为建立跳转关系图和访问关系图;基于所述跳转关系图和所述访问关系图生成所述多个网页文件中每个网页文件的特征数据;将网页文件对应的特征数据输入异常网页识别模型中,生成异常概率;将异常概率大于阈值的网页文件确定为异常网页文件。2.如权利要求1所述的方法,其特征在于,通过多个网页文件对应的访问行为建立跳转关系图和访问关系图,包括:提取所述多个网页文件的访问行为;根据所述访问行为中原始页面、访问页面和其对应的跳转关系生成所述跳转关系图;根据所述访问行为中源IP、访问页面和其对应的访问关系生成所述访问关系图。3.如权利要求2所述的方法,其特征在于,根据所述访问行为中原始页面、跳转页面和其对应的跳转关系生成所述跳转关系图,包括:在访问行为对应的请求报文中提取referer字段;根据所述referer字段提取原始页面;将所述原始页面和所述访问页面作为顶点,将访问行为作为边;通过顶点和边的集合生成所述跳转关系图。4.如权利要求2所述的方法,其特征在于,根据所述访问行为中源IP、跳转页面和其对应的访问关系生成所述访问关系图,包括:在访问行为对应的tcp连接关系中提取所述源IP;将所述源IP和所述访问页面作为顶点,将访问行为作为边;通过顶点和边的集合生成所述访问关系图。5.如权利要求1所述的方法,其特征在于,基于所述跳转关系图和所述访问关系图生成所述多个网页文件中每个网页文件的特征数据,包括:根据所...

【专利技术属性】
技术研发人员:谭天孙昊翔曹浪
申请(专利权)人:杭州迪普科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1