一种对URL进行归一化的方法技术

技术编号:22238433 阅读:33 留言:0更新日期:2019-10-09 18:18
本发明专利技术公开了一种对URL进行归一化的方法,要解决的是现有URL归一化方法中存在的问题。本发明专利技术具体步骤如下:步骤一,将原始的URL通过深度学习方法编码成数值型向量,使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近;步骤二,将数值型向量接近的URL进行合并,从而实现归一化的目的。本方法不需要编写复杂的正则表达式,参数部分不论长短,都可以准确识别到,可以准确的将URL进行归一化;本方法采用Autoencoder方法,Autoencoder方法是一个非监督学习算法,不需要进行人工标注;本方法不需要维护一个URL映射表或者目录结构,在网站进行小规模改版时出现新的URL时有更好的稳定性。

A Method of Normalizing URLs

【技术实现步骤摘要】
一种对URL进行归一化的方法
本专利技术涉及URL归一化领域,具体是一种对URL进行归一化的方法。
技术介绍
在进行web日志分析时,常常我们需要对web页面进行一些统计计算,譬如计算一个页面每小时的访问量,访问IP数,响应状态码分布等,通过对这些统计量建立时间序列模型,或利用他们作为特征,构建更复杂的异常发现模型,用来发现在某段时间内访问异常的页面。但在实际分析中,我们无法看到用户访问的真实页面,只能从访问日志中看到用户访问的URL(互联网上标准资源的地址),因此严格来说,我们分析的对象并不是“页面”,而是“URL”。不管服务器使用apache,nginx还是IIS,他们记录的日志格式一般都符合ApacheCommonLogFormat,我们可以从中抽取访问者IP,目的地IP,请求的URL,客户端User-Agent等信息。过去大多数的网站后端架构,大致符合以下响应流程,即客户端请求某个URL,网站服务器会在其文件系统中寻找用户请求的URL所对应的文件,服务器读取该文件内容,执行当中的代码,渲染出对应的页面,返回给客户端,我们会认为日志中的URL与网页页面存在一一对应关系,因此我们本文档来自技高网...

【技术保护点】
1.一种对URL进行归一化的方法,其特征在于,具体步骤如下:步骤一,将原始的URL通过深度学习方法编码成数值型向量;步骤二,将数值型向量接近的URL进行合并即可。

【技术特征摘要】
1.一种对URL进行归一化的方法,其特征在于,具体步骤如下:步骤一,将原始的URL通过深度学习方法编码成数值型向量;步骤二,将数值型向量接近的URL进行合并即可。2.根据权利要求1所述的对URL进行归一化的方法,其特征在于,所述深度学习方法采用自编码器方法。3.根据权利要求1所述的对URL进行归一化的方法,其特征在于,所述深度学习方法采用递归神经网络作为基础网络,每个单元都是一个单层或者多层神经网络,每个单元具有完全相同的结构,每个单元的输入是上一个单元的输出以及这一步的字符输入。4.根据权利要求2所述的对URL进行归一化的方法,其特征在于,所述自编码器方法通过encoder把原始数据编码成一...

【专利技术属性】
技术研发人员:陈曦魏国富辜乘风汲丽钟丹阳
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1