自动化过滤用户点击行为的方法和系统技术方案

技术编号：10022007 阅读：137 留言：0更新日期：2014-05-09 03:38

本发明专利技术涉及模式识别和机器学习领域，公开了一种自动化过滤用户点击行为的方法和系统，为了解决人工识别URL是否为真正网页费时费力的问题，本发明专利技术采用了自主设计开发的爬虫工具爬取URL对应的内容，将不是网页来源的URL对应的host加入黑名单库。有点击发生时，根据该黑名单库过滤出来源于网页的点击。本发明专利技术提出的自动化过滤用户点击行为的方法和装置，提高了判断的准确性和时效性，对爬取的内容进行分析、自动识别，根据识别的内容判断是否为网页，使整个判断、匹配过程能够实时处理，提出了根据URL对应的host进行判别、匹配，能够有效缩短匹配时间。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术涉及模式识别和机器学习领域，公开了一种自动化过滤用户点击行为的方法和系统，为了解决人工识别URL是否为真正网页费时费力的问题，本专利技术采用了自主设计开发的爬虫工具爬取URL对应的内容，将不是网页来源的URL对应的host加入黑名单库。有点击发生时，根据该黑名单库过滤出来源于网页的点击。本专利技术提出的自动化过滤用户点击行为的方法和装置，提高了判断的准确性和时效性，对爬取的内容进行分析、自动识别，根据识别的内容判断是否为网页，使整个判断、匹配过程能够实时处理，提出了根据URL对应的host进行判别、匹配，能够有效缩短匹配时间。【专利说明】自动化过滤用户点击行为的方法和系统
本专利技术涉及模式识别和机器学习领域，特别涉及一种自动化过滤用户点击行为的方法和系统。
技术介绍
在网络统计分析中，分析网络点击的来源是进行精准推荐内容/广告投放的重要前提。通过网络页面上的链接可以打开另一个网页，但有时不是真正通过页面上的链接打开的该页面，而是通过API或图片等，因而识别点击是否来自网页是网络分类统计工作中一项必要而迫切的工作。目前识别网络点击来源的方法是通过人工识别统一资源定位符URL是否是网页，然后将不是网页的建立URL黑名单，下次有点击的时候，提取来源URL，与现有URL黑名单中的URL进行字符串匹配，如果在黑名单中，则认为该点击不是来自网页，如果不在黑名单中，则认为该次点击来自网页。但是通过人工识别URL是否为网页需要耗费大量的人力和时间，并且识别的URL数量会有限，很难规模化，这样会造成很多误判，即，使许多不是来自网页的点击误判为...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：崔晶晶，林佳婕，吴鹏，马占国，李春华，刘立娜，
申请(专利权)人：北京集奥聚合科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人