自动化过滤用户点击行为的方法和系统技术方案

技术编号:10022007 阅读:137 留言:0更新日期:2014-05-09 03:38
本发明专利技术涉及模式识别和机器学习领域,公开了一种自动化过滤用户点击行为的方法和系统,为了解决人工识别URL是否为真正网页费时费力的问题,本发明专利技术采用了自主设计开发的爬虫工具爬取URL对应的内容,将不是网页来源的URL对应的host加入黑名单库。有点击发生时,根据该黑名单库过滤出来源于网页的点击。本发明专利技术提出的自动化过滤用户点击行为的方法和装置,提高了判断的准确性和时效性,对爬取的内容进行分析、自动识别,根据识别的内容判断是否为网页,使整个判断、匹配过程能够实时处理,提出了根据URL对应的host进行判别、匹配,能够有效缩短匹配时间。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及模式识别和机器学习领域,公开了一种自动化过滤用户点击行为的方法和系统,为了解决人工识别URL是否为真正网页费时费力的问题,本专利技术采用了自主设计开发的爬虫工具爬取URL对应的内容,将不是网页来源的URL对应的host加入黑名单库。有点击发生时,根据该黑名单库过滤出来源于网页的点击。本专利技术提出的自动化过滤用户点击行为的方法和装置,提高了判断的准确性和时效性,对爬取的内容进行分析、自动识别,根据识别的内容判断是否为网页,使整个判断、匹配过程能够实时处理,提出了根据URL对应的host进行判别、匹配,能够有效缩短匹配时间。【专利说明】自动化过滤用户点击行为的方法和系统
本专利技术涉及模式识别和机器学习领域,特别涉及一种自动化过滤用户点击行为的方法和系统。
技术介绍
在网络统计分析中,分析网络点击的来源是进行精准推荐内容/广告投放的重要前提。通过网络页面上的链接可以打开另一个网页,但有时不是真正通过页面上的链接打开的该页面,而是通过API或图片等,因而识别点击是否来自网页是网络分类统计工作中一项必要而迫切的工作。目前识别网络点击来源的方法是通过人工识别统一资源定位符URL是否是网页,然后将不是网页的建立URL黑名单,下次有点击的时候,提取来源URL,与现有URL黑名单中的URL进行字符串匹配,如果在黑名单中,则认为该点击不是来自网页,如果不在黑名单中,则认为该次点击来自网页。但是通过人工识别URL是否为网页需要耗费大量的人力和时间,并且识别的URL数量会有限,很难规模化,这样会造成很多误判,即,使许多不是来自网页的点击误判为来自网页。另外很多URL很长,字符数比较多,逐个匹配会花费很多时间,基本达不到实时的效果,会影响到及时地进行点击的真实性判断,更会影响到后续的数据分析。
技术实现思路
(一)本专利技术解决的技术问题:目前在网络点击来源识别方面,在规模化、准确性、实时性方面达不到很好的效果,针对现有技术的缺陷,本专利技术提出了一种新的自动化过滤用户点击行为的方法和装置,解决了自动化识别点击是否来自网页的问题,能够针对大量的数据进行自动识别,降低了人工识别造成的人工和时间上的消耗以及识别的误判率,并且能大大降低URL黑名单库的存储规模,也相应地减少了匹配、识别时间,能够根据点击数据实时识别是否是真正来源于网页的有效点击。(二)技术方案为实现上述目的,本专利技术提出了一种新的自动化过滤用户点击行为的方法和装置。为了解决人工识别URL是否为真正网页费时费力的问题,本专利技术采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果不是网页,则提取URL对应的host,将host加入黑名单库。有点击发生时,会自动取出来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页。具体地,一方面,本专利技术提供一种自动化过滤用户点击行为的方法,其特征在于,所述方法包括步骤:黑名单库建立阶段和点击过滤阶段。(I)黑名单库建立阶段,采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果不是网页,则提取URL对应的host,将host加入黑名单库;(2)点击过滤阶段,有点击发生时,自动获取来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页;步骤(I)和步骤(2)可重复进行。优选地,每天定时启动黑名单库建立阶段对黑名单库进行补充。优选地,步骤(I)中识别爬取的内容不是网页具体为识别爬取的URL对应的内容是图片或API。优选地,步骤(2)的点击过滤阶段由捕获到点击事件自动启动的,全过程自动进行,无需人工干涉优选地,步骤(2)中对host进行了编码处理。另一方面,本专利技术提供一种自动化过滤用户点击行为的系统,其特征在于,所述系统包括模块:黑名单库建立模块和点击过滤模块。(I)黑名单库建立模块,采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果不是网页,则提取URL对应的host,将host加入黑名单库;(2)点击过滤模块,有点击发生时,自动获取来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页;黑名单库建立模块和点击过滤模块可重复执行。优选地,每天定时启动黑名单库建立阶段对黑名单库进行补充。优选地,黑名单库建立模块中识别爬取的内容不是网页具体为识别爬取的URL对应的内容是图片或API。优选地,点击过滤模块由捕获到点击事件自动启动的,全过程自动进行,无需人工干涉优选地,点击过滤模块对host进行了编码处理。(三)技术效果本专利技术提出的自动化过滤用户点击行为的方法和装置,提高了判断的准确性和时效性。本专利技术根据URL对应的host进行判别、匹配,而不是采用传统的直接使用URL进行匹配,能有效缩短匹配时间;此外,通过对爬取的内容进行分析、自动识别,根据识别的内容判断是否为网页,使整个判断、匹配过程能够实时处理。【专利附图】【附图说明】图1是本专利技术中自动化过滤用户点击行为的方法流程示意图;图2是本专利技术中自动化过滤用户点击行为的URL黑名单库建立阶段的流程示意图;图3是本专利技术中自动化过滤用户点击行为的点击过滤阶段的流程示意图;图4是本专利技术中自动化过滤用户点击行为的装置示意图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了解决人工识别URL是否为真正网页费时费力的问题,本专利技术采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果是图片或API,则提取URL对应的host,将host加入黑名单库。有点击发生时,会自动取出来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页。图1是本专利技术中自动化过滤用户点击行为的方法流程示意图。在本专利技术公开的方法分为两个阶段:黑名单库建立阶段和点击过滤阶段。黑名单库建立阶段是点击过滤阶段的基础,但两者并不具有绝对的先后顺序,可以同步进行,可以先后进行,也可以交叉顺序进行,在点击过滤阶段之后,还可以进一步完善黑名单库,随着黑名单库的不断完善,对网络点击是否来源于网页进行识别的点击过滤阶段的准确率也能够得到不断地提高。为了丰富黑名单库,每天定时对黑名单库进行补充。图2是本专利技术中自动化过滤用户点击行为的黑名单库建立阶段的流程示意图。黑名单库建立阶段具体包含如下步骤:S1:获取点击来源的历史数据。S2:提取来源 URL。S3:爬取URL的内容。该步骤中采用自主设计开发的爬虫工具爬取URL对应的内容。S4:识别URL的内容。该步骤中,对爬取的内容进行识别,如果是网页则转步骤S6 ;如果不是网页,例如本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:崔晶晶林佳婕吴鹏马占国李春华刘立娜
申请(专利权)人:北京集奥聚合科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1