一种手机上网垃圾日志的过滤方法技术

技术编号:9694830 阅读:117 留言:0更新日期:2014-02-21 01:17
本发明专利技术涉及一种手机上网垃圾日志的过滤方法,通过上网日志获取,主动上网Path信息提取,利用Parzen窗计算出各网站主动获取内容与自动推送内容的时间间隔所满足的概率分布,并依照总体均数的95%单边置信区间将部分主动上网日志中的path信息提取出来,主动上网模式归纳,利用关联算法归纳出不同host下主动上网path信息中的常见模式,并形成主动上网模式库,过滤掉无用的垃圾日志信息。

【技术实现步骤摘要】

本专利技术涉及,属于数据挖掘

技术介绍
在基于框架的网页模式下,当用户访问网页时,服务器通常会向用户设备发一个包含URL链接的网页,由于该URL页面通常隐藏着子URL页面,因而从用户的角度看,虽然只发起了一次URL请求,却加载了多条自动推送的URL记录。这些自动推送的URL记录大量存在于用户上网日志文件中,其并不能代表用户的真实上网行为。为了能够更精确的洞察用户的上网行为,我们需要将这些自动推送内容从日志文件中过滤出来。传统的垃圾日志过滤方法主要是基于匹配方式的,对于某条URL记录,若不在主动访问数据库中,则我们认为其为自动推送记录并将它过滤出来。该方法的最大困难在于,第一,对于URL信息通常包含了诸如SID安全标示符这样的随机字符串,使得在利用简单匹配方式进行匹配时的成功率较低;第二,在对主动访问数据库进行更新时人工参与量较大,需要寻求一种自动化的方式对主动访问数据库进行更新。
技术实现思路
针对以上弊端,本专利技术提供一种手机上网垃圾日志过滤方法,主要方法如下: 通过分析手机上网日志中主动获取内容和自动推送内容在时序上的差异性提取出主动上网日志中所包含的URL所对应的path信息; 根据一定的拆分规则对主动上网类URL对应的path信息进行拆分,进而获取各host站点所对应的特征字符串集; 利用关联规则挖掘方式对各host站点对应的特征字符串集进行关联分析,总结出各host站点对应的常见主动访问模式,并据此将主动推送类垃圾日志过滤出来。其中在获取主动上网类日志中的URL信息时,首先通过抓包的方式人工获取自动加载类URL与主动访问类URL的时间间隔序列Xi (i = 1,2...N); 利用Parzen窗对该时间间隔序列的总体概率密度进行估计,落在点x处的概率密度函数的估计值为:本文档来自技高网...

【技术保护点】
一种手机上网垃圾日志的过滤方法,其主要特征在于,主要包括以下步骤:?通过分析手机上网日志中主动获取内容和自动推送内容在时序上的差异性提取出主动上网日志中所包含的URL信息;?根据一定的拆分规则对主动上网类URL对应的path信息进行拆分,进而获取各host站点所对应的特征字符串集;?利用关联规则挖掘方式对各host站点对应的特征字符串集进行关联分析,总结出各host站点对应的常见主动访问模式,并据此将主动推送类垃圾日志过滤出来。

【技术特征摘要】
1.ー种手机上网垃圾日志的过滤方法,其主要特征在于,主要包括以下步骤: 通过分析手机上网日志中主动获取内容和自动推送内容在时序上的差异性提取出主动上网日志中所包含的URL信息; 根据一定的拆分规则对主动上网类URL对应的path信息进行拆分,进而获取各host站点所对应的特征字符串集; 利用关联规则挖掘方式对各host站点对应的特征字符串集进行关联分析,总结出各host站点对应的常见主动访问模式,并据此将主动推送类垃圾日志过滤出来。2.如权利要求1所述,ー种手机上网垃圾日志的过滤方法,其特征在于,手机上网日志中主动获取内容和自动推送内容在时序上的差异性可以通过统计来实现,主要包括以下几I K少: 针对某种类型网站,首先通过抓包的方式人工获取自动加载类URL与主动访问类URL的时间间隔序列Xi (i = I, 2.? ? N); 利用Parzen窗对该时间间隔序列的总体概率密度进行估计,落在点x处的概率密度函数的估计值为: 3.如权利要求1所述,ー种手机上网垃圾日志的过滤方法,其特征在于,获取URL所对应的的...

【专利技术属性】
技术研发人员:邵伟昂卫武黄汇
申请(专利权)人:南京安讯科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1