【技术实现步骤摘要】
地址归一化处理方法、装置和系统、数据处理方法
本申请涉及互联网领域,具体而言,涉及一种地址归一化处理方法、装置和系统、数据处理方法。
技术介绍
URL(UniformResourceLocation,统一资源定位符)中常常携带有参数,例如,URL地址为/friend/zhangsan/index.php,其中,zhangsan是作为参数传输至网站后台的。黑客常常利用这一点,通过不断变化填充的参数,让请求的地址两两不同,以规避网站的处置。为了解决上述问题,可以将功能相近的地址压缩成一类的地址归一化,以上述地址为例,可以压缩为/friend/{参数}/index.php。现有技术中的地址归一化方案,为自底向上的地址聚合,即通过地址间的互相比较,判断是否需要合并,但是,该归一化方法的阈值不容易确定,而且不符合网站功能。具体举例如下:日志中存在如下九个地址,假设同一位置大于两个的变参,确定需要合并:1)/friend/photo/1.png2)/friend/photo/2.png3)/friend/photo/3.png4)/friend/photo/4.png5)/f ...
【技术保护点】
1.一种地址归一化处理方法,其特征在于,包括:获取目标地址;对所述目标地址进行切分处理,得到与所述目标地址对应的地址元素;根据所述目标地址的二级域名,计算所述地址元素的总量;基于所述总量,确定属于网站功能元素的地址元素,其中,所述网站功能元素为用于实现网站功能的元素;对所述属于网站功能元素的地址元素进行拼接,得到归一化结果。
【技术特征摘要】
1.一种地址归一化处理方法,其特征在于,包括:获取目标地址;对所述目标地址进行切分处理,得到与所述目标地址对应的地址元素;根据所述目标地址的二级域名,计算所述地址元素的总量;基于所述总量,确定属于网站功能元素的地址元素,其中,所述网站功能元素为用于实现网站功能的元素;对所述属于网站功能元素的地址元素进行拼接,得到归一化结果。2.根据权利要求1所述的方法,其特征在于,所述获取目标地址包括:从网页日志中提取状态码为预设值的第一地址;将所述第一地址中的字符转换为预设字符,得到所述目标地址。3.根据权利要求1所述的方法,其特征在于,所述对所述目标地址进行切分处理,得到与所述目标地址对应的地址元素包括:将所述目标地址切分为一级域名、路径及参数,并从所述一级域名中解析出所述二级域名;对所述一级域名按照第一规则进行拆解,得到所述一级域名对应的第一地址元素,对所述路径按照第二规则进行拆解,得到所述路径对应的第二地址元素,对所述参数按照第三规则进行拆解,得到所述参数对应的第三地址元素。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标地址的二级域名,计算所述地址元素的总量包括:按照所述二级域名,对所述第一地址元素、所述第二地址元素以及所述第三地址元素进行分组;计算每个分组中的地址元素总个数。5.根据权利要求4所述的方法,其特征在于,所述基于所述总量,确定属于网站功能元素的地址元素包括:判断所述地址元素总个数是否满足预设条件,所述预设条件为根据元素属性及网站状态得到的,所述网站状态用于指示元素的计数分布情况;若所述地址元素总个数满足所述预设条件,确定对应分组中的地址元素属于所述网站功能元素;若所述地址元素总个数不满足所述预设条件,确定对应分组中的地址元素不属于所述网站功能元素。6.根据权利要求5所述的方法,其特征在于,所述对所述属于网站功能元素的地址元素进行拼接,得到归一化结果包括:将属于所述网站功能元素的地址元素保留,将不属于所述网站功能元素的地址元素替换为预设标识;对所述属于所述网站功能元素的地址元素以及所述预设标识进行拼接,得到所述归一化结果。7.一种地址归一化处理装置,其特征在于,包括:获取模块,用于获取目标地址;切分模块,用于对所述目标地址进行切分处理,得到与所述目标地址对应的地址元素;计算模块,用于根据所述目标地址的二级域名,计算所述地址元素的总量;确定模块,用于基于所述总量,确...
【专利技术属性】
技术研发人员:徐道晨,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。