基于广告监测的数据采集方法及系统技术方案

技术编号:12889574 阅读:45 留言:0更新日期:2016-02-17 23:26
本发明专利技术公开了基于广告监测的数据采集方法和数据采集系统。其中,包括:接收来自终端的广告获取请求;针对所述广告获取请求向所述终端发送广告效果地址;接收来自终端的通知消息,所述广告获取请求和来自终端的通知消息均包括统一资源定位符和终端信息;根据所述统一资源定位符和所述终端信息设置爬虫任务,其中,对引发所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。根据本发明专利技术的具体实施例将HTTP采集与爬虫技术结合,更深一步地采集用户访问广告网页的原因内容、结果内容和环境内容,从而更精确地分析投放效果、去除垃圾流量并为广告投放提供更多维度的数据。

【技术实现步骤摘要】

本专利技术涉及数据采集领域,特别是基于广告监测的数据采集方法和数据采集系统。
技术介绍
广告投放者需要区分每个用户,记录其广告交互过程并进行建模,以期更精准的投放广告。在现有技术中,在互联网上,广告投放流程是:步骤一,向用户进行初级广告页面展示;步骤二,接收用户对初级广告页面的点击;步骤三,向用户展示其点击相应的次级广告页面。对于互联网广告来说,步骤一和步骤二都发生在广告投放载体的页面上,而步骤三发生在广告投放主体的页面上,因此可以对广告投放载体和广告投放主体的页面进行网页数据采集(HTTP采集),网页数据采集技术通过HTTP协议在用户发送HTTP请求(即点击)时得到设备硬件信息、操作系统信息、IP信息、cookie信息。举例而言,广告投放载体通过在浏览器中为每个用户存入唯一的cookie来区分用户。因为整个广告投放的过程都是在用户的浏览器中完成的,所以用户在整个广告投放过程中的行为,包括看到哪些广告、点击哪些广告、在广告投放主体的页面上有哪些交互(比如浏览商品、提交注册信息等),都可以通过cookie关联至同一个用户。如果要更精确地分析用户的购买行为,或者要进一步分析广告投放效果,需要更大量、更完备的数据采集,现有技术仅仅通过网页数据采集往往无法满足这种需求。
技术实现思路
有鉴于此,本专利技术提供一种基于广告监测的数据采集方法,包括:步骤100,接收来自终端的广告获取请求;步骤200,针对所述广告获取请求向所述终端发送广告效果地址;步骤300,接收来自终端的通知消息,所述广告获取请求和所述通知消息均包括统一资源定位符和终端信息;步骤400,根据所述统一资源定位符和所述终端信息设置爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。优选地,所述统一资源定位符与广告效果地址相关。优选地,所述统一资源定位符包括当前页面地址,请求来源地址、广告效果地址中的一种或多种。优选地,所述统一资源定位符包括网页跳转地址。优选地,所述终端信息包括cookie、IP地址、终端机型、操作系统中的一种或多种。优选地,所述cookie包括浏览器cookie和/或flash cookie。优选地,所述步骤400包括:判断所述统一资源定位符是否已经经过爬虫任务处理:若是,则放弃爬虫任务;若否,则启动爬虫任务。优选地,所述步骤400包括:根据特定策略对所述爬虫任务进行调度。优选地,所述特定策略为按照所述网页数据采集得出的统计结果的排序相应地对所述统一资源定位符进行所述爬虫任务。优选地,所述统计结果包括以下至少一个:统一资源定位符的用户访问量、重点用户访问的统一资源定位符或统一资源定位符的集中度。优选地,所述步骤400包括模拟终端设置爬虫任务。优选地,所述模拟终端包括配置cookie、终端机型、IP地址、操作系统中的一种或多种。优选地,进一步包括:步骤500,对所述爬虫任务得出的结果进行校验。优选地,所述步骤500包括:判断所述爬虫任务得出的结果与历史库对比是否相似:若是,则校验结果显示正确;若否,则校验结果显示错误。优选地,所述步骤100还包括对所述广告获取请求的来源进行网页数据数据采集。本专利技术还提供一种基于广告监测的数据采集系统,包括:第一接收模块,用于接收来自终端的广告获取请求;发送模块,用于针对所述广告获取请求向所述终端发送广告效果地址;第二接收模块,用于接收来自终端的通知消息,其中,所述广告获取请求和来自终端的通知消息均包括与所述广告效果地址相关的统一资源定位符和终端信息;设置执行模块,用于根据所述统一资源定位符和所述终端信息设置执行爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。优选地,进一步包括:校验模块,用于对所述爬虫任务得出的结果进行校验。根据本专利技术的具体实施例的基于广告监测的数据采集方法,能够将HTTP采集技术与爬虫技术结合,更深一步地采集用户访问广告网页的原因内容、结果内容和环境内容,从而更精确地分析投放效果、去除垃圾流量并为广告投放提供更多维度的数据。【附图说明】下面将通过参照附图详细描述本专利技术的优选实施例,使本领域的普通技术人员更清楚本专利技术的上述及其它特征和优点,附图中:图1是根据本专利技术的具体实施例的基于广告监测的数据采集方法的步骤图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,以下举具体实施例对本专利技术进一步详细说明。图1是根据本专利技术的具体实施例的基于广告监测的数据采集方法的步骤图。如图1所示,根据本专利技术的具体实施例的基于广告监测的数据采集方法,包括:步骤100,接收来自终端的广告获取请求;步骤200,针对所述广告获取请求向所述终端发送广告效果地址;步骤300,接收来自终端的通知消息,所述广告获取请求和所述通知消息均包括与所述广告效果地址相关的统一资源定位符和cookie ;步骤400,根据所述统一资源定位符和所述cookie设置爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。具体而言:步骤100,接收来自终端的广告获取请求。—般而言,多由广告服务器接收来自终端的广告获取请求,该广告服务器可以包括广告业务服务器和广告监测服务器,其中,该广告获取请求可同时发送给广告业务服务器再由其转发至广告监测服务器,也可以由终端直接发送给广告监测服务器。所述广告信息获取请求携带有被请求的广告的名称以及所述终端的标识等信息。同时,对所述广告获取请求的来源进行网页数据数据采集,即获取所述广告获取请求的来源的设备硬件信息、所述广告获取请求的来源的操作系统信息、所述广告获取请求的来源的用户的IP信息和cookie信息,等等。步骤200,针对所述广告获取请求向所述终端发送广告效果地址。广告服务器中存储有广告投放主体的广告内容,当广告业务服务器接收到终端发送的广告信息获取请求后,查找与所述广告信息获取请求对应的广告内容,将广告内容返回给终端。与此同时,根据广告内容,广告服务器(广告业务服务器或广告监测服务器)同时针对所述广告获取请求向所述终端发送广告效果地址(广告监测服务器发送给广告业务服务器再由广告业务服务器转发至终端,或广告监测服务器直接发送至终端)。其中,广告投放主体会针对每个广告设置广告效果地址,广告效果地址指的是广告投放主体希望用户触发的,触发后需要对广告平台付费的地址,例如广告效果地址可以是用户购买、收藏广告中商品的地址。步骤300,接收来自终端的通知消息,所述广告获取请求和所述通知消息均包括与所述广告效果地址相关的统一资源定位符和cookie。终端在接收到与广告信息获取请求对应的广告及广告效果地址之后,终端进一步监测用户对广告内容的响应,获取用户对广告内容的响应信息,判断响应信息中是否包含有与广告效果地址匹配的地址,若有,则向广告监测服务器发送通知消息。如上所述,对所述广告获取请求的来源进行网页数据数据采集,即获取所述广告获取请求的来源的设备硬件信息、所述广告获取请求的来源的操作系统信息、所述广告获取请求的来源的用户的IP信息和cookie信息,等等。接收来自终端的通知消息也包括与所述广告效果地址相关的统一资源定位符和cookie。在接下来的步骤中,本专利技术的具体实施例的基于广告监测的数据采集方法本文档来自技高网...

【技术保护点】
一种基于广告监测的数据采集方法,包括:步骤100,接收来自终端的广告获取请求;步骤200,针对所述广告获取请求向所述终端发送广告效果地址;步骤300,接收来自终端的通知消息,所述广告获取请求和所述通知消息均包括统一资源定位符和终端信息;步骤400,根据所述统一资源定位符和所述终端信息设置爬虫任务,其中,对所述广告获取请求的原因内容、结果内容和环境内容执行所述爬虫任务。

【技术特征摘要】

【专利技术属性】
技术研发人员:洪倍
申请(专利权)人:精硕世纪科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1