URL异常定位方法、装置、服务器及存储介质制造方法及图纸

技术编号:18599913 阅读:51 留言:0更新日期:2018-08-04 21:05
本说明书实施例提供了一种URL异常定位方法,通过对URL表示为多个示例组成的包,并利用URL异常定位模型对异常示例进行预测,从而定位出URL中的异常字段。基于多示例学习的URL异常定位,能够较好的预测出数据中未发现的潜在威胁。

URL abnormal location method, device, server and storage medium

This specification embodiment provides an URL exception location method, which is made up of a packet made up of a number of examples by the URL, and predicts the exception example by the URL exception location model, thus locating the exception field in the URL. URL anomaly location based on multi instance learning can better predict potential threats that are not found in the data.

【技术实现步骤摘要】
URL异常定位方法、装置、服务器及存储介质
本说明书实施例涉及互联网
,尤其涉及一种URL异常定位方法、装置、服务器及存储介质。
技术介绍
在互联网的应用场景中,每天会有大量的对于网址URL(UniformResourceLocator,统一资源定位符)的访问;与此同时,不乏不法分子试图通过不合法的URL访问进行攻击。
技术实现思路
本说明书实施例提供及一种URL异常定位方法、装置、服务器及存储介质。第一方面,本说明书实施例提供一种URL异常定位方法,包括:对URL进行字段切分,得到由对应各个字段的各个示例组成的多示例包;将所述多示例包输入基于多示例学习的URL异常定位模型进行异常示例预测;根据异常示例定位出对应的异常字段。第二方面,本说明书实施例提供一种URL异常定位训练方法,包括:收集由多个URL样本组成的URL样本集;对URL样本集中各个URL样本进行字段切分,针对每个URL样本得到由对应各个字段的各个示例组成的多示例包;集合各个URL样本的多示例包得到多示例包集;基于多示例学习算法,对多示例包集进行异常示例及非异常示例分类训练;基于所述分类训练,得到所述URL异常定位模型。第三方面,本说明书实施例提供一种URL异常定位装置,包括:切分单元,用于对URL进行字段切分,得到由对应各个字段的各个示例组成的多示例包;预测单元,用于将所述多示例包输入基于多示例学习的URL异常定位模型进行异常示例预测;定位单元,用于根据异常示例定位出对应的异常字段。第四方面,本说明书实施例提供一种URL异常定位训练装置,包括:样本获取单元,用于收集由多个URL样本组成的URL样本集;样本切分单元,用于对URL样本集中各个URL样本进行字段切分,针对每个URL样本得到由对应各个字段的各个示例组成的多示例包;示例包集合单元,用于集合各个URL样本的多示例包得到多示例包集;训练单元,用于基于多示例学习算法,对多示例包集进行异常示例及非异常示例分类训练,得到所述URL异常定位模型。第五方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。第六方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。本说明书实施例有益效果如下:在本说明书实施例中,通过对URL表示为对应多个字段的多个示例组成的包,利用URL异常定位模型对异常示例进行预测,从而定位出URL中的异常字段。基于多示例学习的URL异常定位,能够较好的预测出每天的访问数据中未发现的潜在威胁,由于可以针对异常URL确定异常所在,从而可为发现潜在威胁、建立新的安全规则、构建安全系统提供巨大的支持。附图说明图1为本说明书实施例的URL异常定位场景示意图;图2为本说明书实施例第一方面的URL异常定位方法流程图;图3为本说明书实施例第二方面的URL异常定位训练方法流程图;图4为本说明书实施例第三方面的URL异常定位装置结构示意图;图5为本说明书实施例第四方面的URL异常定位训练装置结构示意图;图6为本说明书实施例第五方面提供的URL异常定位服务器结构示意图。具体实施方式为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。本说明书实施例URL异常定位场景示意图请参见图1。客户端(用户侧)向服务端(网络侧)提出URL访问请求,服务端解析URL访问请求得到URL,并对URL进行基于多示例学习的异常定位。具体的,服务端预先基于多示例学习算法训练出URL异常定位模型,通过URL异常定位模型预测出异常示例,再由异常示例确定出对应的URL所在字段,达到定位URL异常的目的。本专利技术实施例中所谓“URL异常定位”,区别于仅仅给出整个URL是否异常的方式,而是确定出URL中具体的异常字段位置,从而可便于对异常进行更为准确的分析和预防。第一方面,本说明书实施例提供一种URL异常定位方法。请参考图2,本说明书实施例提供的URL异常定位方法包括如下步骤S201-S203。S201:对URL进行字段切分,得到由对应各个字段的各个示例组成的多示例包。基于多示例学习(MultipleInstanceLearning,MIL),对URL进行切分得到多示例构成的包。区别于传统的监督学习,在多示例学习中,数据是以包(bag)的形式给出,一个包(bag)中通常具有多个示例(instance)。可以理解,本说明书实施例中每一个URL对应一个包(bag)、而包中又包括多个示例,因此以“多示例包”表示一个URL。基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法可如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志。本说明书实施例中可以对URL整个构成进行字段切分,也可以仅对高风险字段进行切分。例如,仅对服务器名称字段进行进一步切分为多个示例;或者仅对#(井号)后面的部分进行字段切分得到多个示例。其中,示例可由对应字段的特征向量表示。例如,将某字段的pattern、字符数、字母数等表示为特征向量,得到该字段对应的示例。S202:将多示例包输入预设的URL异常定位模型进行异常示例预测。本说明书实施例中,首先,可预先根据多示例学习算法基于多个URL样本进行训练,得到URL异常定位模型(训练过程请参考图3及相关描述);然后,将待预测URL对应的多示例包输入URL异常定位模型,根据URL异常定位模型,预测多示例包中的各个示例的异常标记的值,从而预测多示例包中的各个示例是否为异常示例。在传统多示例学习算法中,仅在包的层面给出标记(label)。例如,对于标准的多示例学习而言,以二分类为例,对于一个包,只要其中有一个示例是正示例,该包就是正包;而负包中的所有示例都是负示例。要说明的是,包的标记是已知的,样本的标记是未知的。因此,相比传统监督学习,多示例学习的监督信息更少,难度更大。本说明书实施例中,通过给出示例的标记的方式,区别出异常示例和非异常示例(而不仅限于包层面的标记)。对于一个正包(positivebag),其中至少有一个正示例(positiveinstance),而负包(negativebag)中的所有示例都是负示例(negativeinstance)。需要说明的是,本说明书实施例中,所谓正示例是指异常示例(例如异常标记的值为1或者具有正标记),正包也即异常包;所谓负示例是指非异常示例(例如异常标记的值为0或者具有负标记),负包也即非异常包。S203:根据异常示例定位出对应的异常字段。由于每一个示例都是确定对应某个字段的,因此在预测出异常示例之后,即可确定出异常示例对应的异常字段,也即确定出URL中异常位置。本专利技术实施例中:对于一个包,只要其中有一个示例是正的,该包就是正包;而负包中的所本文档来自技高网...

【技术保护点】
1.一种URL异常定位方法,包括:对URL进行字段切分,得到由对应各个字段的各个示例组成的多示例包;将所述多示例包输入基于多示例学习的URL异常定位模型进行异常示例预测;根据异常示例定位出对应的异常字段。

【技术特征摘要】
1.一种URL异常定位方法,包括:对URL进行字段切分,得到由对应各个字段的各个示例组成的多示例包;将所述多示例包输入基于多示例学习的URL异常定位模型进行异常示例预测;根据异常示例定位出对应的异常字段。2.根据权利要求1所述的方法,还包括:基于多示例学习算法对多个URL样本进行训练,得到所述URL异常定位模型。3.根据权利要求2所述的方法,所述基于多示例学习算法对多个URL样本进行训练,得到所述URL异常定位模型,包括:对URL样本集中各个URL样本进行字段切分,针对每个URL样本得到由对应各个字段的各个示例组成的多示例包;集合各个URL样本的多示例包得到多示例包集;基于多示例学习算法,对多示例包集进行异常示例及非异常示例分类训练;基于所述分类训练,得到所述URL异常定位模型。4.根据权利要求3所述的方法,所述异常示例和非异常示例通过示例的异常标记的值进行区分;所述对多示例包集进行异常示例及非异常示例分类训练包括:对多示例包集中每个示例的异常标记的值进行初始化,并对异常标记的值进行迭代学习,更新调整出每个示例最终的异常标记的值。5.根据权利要求4所述的方法,所述将所述多示例包输入预设的URL异常定位模型进行异常示例预测包括:根据所述URL异常定位模型,预测所述多示例包中的各个示例的异常标记的值,从而预测所述多示例包中的各个示例是否为异常示例。6.根据权利要求1-5任一项所述的方法,还包括:确定所述URL是否为异常URL:如果所述URL对应的示例包中包括异常示例,则确定所述URL为异常URL;如果所述URL对应的示例包中不包括异常示例,则确定所述URL为非异常URL。7.根据权利要求1-5任一项所述的方法,所述示例是由对应字段的特征向量表示的。8.根据权利要求1-5任一项所述的方法,所述字段为URL中参数请求字段。9.一种URL异常定位训练方法,包括:收集由多个URL样本组成的URL样本集;对URL样本集中各个URL样本进行字段切分,针对每个URL样本得到由对应各个字段的各个示例组成的多示例包;集合各个URL样本的多示例包得到多示例包集;基于多示例学习算法,对多示例包集进行异常示例及非异常示例分类训练;基于所述分类训练,得到所述URL异常定位模型。10.根据权利要求9所述的方法,所述异常示例和非异常示例通过示例的异常标记的值进行区分;所述对多示例包集进行异常示例及非异常示例分类训练包括:对多示例包集中每个示例的异常标记的值进行初始化,并对异常标记的值进行迭代学习,更新调整出每个示例最终的异常标记的值。11.一种URL异常定位装置,包括:切分单元,用于对URL进行字段切分,得到由对应各个字段的各个示例组成的多示例包;预测单元,用于将所述多示例包输入基...

【专利技术属性】
技术研发人员:张雅淋李龙飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1