一种互联网广告信息处理方法技术

技术编号:3544808 阅读:210 留言:0更新日期:2012-04-11 18:40
一种互联网广告信息处理方法,其特征在于,包含如下步骤: 页面内容抓取步骤,从互联网中的网站上下载被监测网站页面的内容,并自动由IE浏览器将该内容解释为用户显示界面,得到原始超文本标志语言页面; 链接分离步骤,分离该原始超文本标志语言页面中的全部链接信息,记录IE浏览器中所有链接对象的链接,得到网页元素链接列表; 域名分析步骤,分析该网页元素链接列表,将链接中不属于该网站的链接分离出来,得到非网站内链接列表; 统一资源定位器聚类分析步骤,对于该非网站内链接列表中的每一个链接,进行聚类分析,得到链接列表聚类分析表。

【技术实现步骤摘要】
所属
本专利技术涉及一种互联网信息的处理方法,尤其涉及一种互联网广告信息的分离、分析方法。
技术介绍
互联网广告技术被誉为现今广告投放技术中最复杂的技术,与报刊、杂志等平面媒体和电视广告相比较而言,互联网广告形式多样、投放来源复杂、技术方法多样,因此,广告投放者欲要决定采取何种广告模式或选择哪家提供广告的网站时,往往没有客观的标准。相应的,广告提供者们欲要说服广告投放者购买自己的广告服务,也需要给出有说服力的、具有竞争性的证据,来说明自己提供的广告服务是最有效的。这就是互联网广告的第三方监测技术的需求。互联网广告的第三方监测技术实现相当困难。除高效率的网页抓取能力和海量数据存储以外,如何从花样百出的网络媒体页面中高效率地分离出商业广告并提供客观分析是一个对于互联网广告的第三方监测最关键的方法问题。互联网广告信息分离方法主要用于互联网上基于WEB技术的媒体网站的商业广告情报收集分析工作。获取的数据结果,主要服务于网络媒体、网络广告公司、网络广告主等与互联网商业广告行为相关的各类企业。主要用于获得竞争媒体情报分析、广告主投放历史数据调查、国内网络广告市场动态走势分析等,决策分析用数据。互联网广告信息分离方法适用于第三方广告监测技术的各项需求,以广告实际投放为监测目标,能实现跨媒体监测、兼容各种媒体的广告投放系统。现有的广告信息分离方法是依靠广告投放的监测代码作为特征码,就是多数媒体(拥有成熟广告投放系统的媒体)的每个页面的每个广告投放点都有一套固定的代码,可以在抓取系统中设定这些代码,来实现广告的分离工作。简单来说就是特征码分离技术。该方法在适应媒体变化和新型广告投放技术方面有一定差别,需要更多的人力去关注媒体的频道栏目及广告投放技术的变化情况。可见,业界存在着一种技术需求:提供一种智能化的、准确的分离出页面中的广告内容,并且能帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣工作量的方法。
技术实现思路
本专利技术的目的是提供一种互联网广告信息处理方法,解决现有技术的缺陷,能够智能、准确地分离出互联网页面中的广告内容,并且帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣工作量。本专利技术的技术方案如下:本专利技术提供了一种互联网广告信息的处理方法,该方法主要依赖各互联网媒体页面中对所有链接的统一资源定位器(Uniform Resoure Locator,以下简称URL)地址进行分析,将链接到被监测媒体以外网站的链接进行分析归类,能够非常智能准确的分离出页面中的广告内容,帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣的工作量。本专利技术的一个实施例提供了一种互联网广告信息处理方法,包括如下步骤:页面内容抓取步骤,从互联网中的网站上下载被监测网站页面的内容,并自动由IE浏览器将其解释为用户显示界面,得到原始超文本标志语言(Hyper Text Markup Language,以下简称为HTML)页面;链接分离步骤,分离原始HTML页面中的全部链接信息,记录IE浏览器中所有链接对象,得到页面元素链接列表;-->域名分析步骤,分析网页元素链接列表,将链接中不属于该网站的链接分离出来,得到非网站内链接列表;URL聚类分析步骤,:对于所有分析出的非网站内链接列表中的每一个链接,进行4级聚类分析,得到链接列表聚类分析表。本专利技术方法还可以包括:广告信息存储步骤,将原始URL保存到数据库内,并将此链接列表聚类分析表作为索引信息保存在数据索引数据表中。本专利技术的优点是:1.兼容各种互联网媒体,可兼容所有使用WEB技术,支持IE浏览器的网络媒体。2.兼容各种互联网广告技术,主要有:文字链接广告、图片广告、Flash广告三种,这些广告可以放置在媒体页面的任何位置,可以显示或隐藏,可以跟随页面或用户操作进行变化。3.高自动分离识别率,平均页面商业广告自动分离识别率不低于90%。4.高分离识别效率,平均每1MB页面元素内容,分离识别时间小于20秒(未排除网络带宽因素)。5.兼容各种URL网络地址格式,主要有:HTTP、HTTPS、FTP等可以用于IE浏览器的协议6.支持多窗口多实体技术,可分析多重框架页面、弹出窗口、内嵌页面的广告内容分析7.支持Flash广告链接提取,可以从Flash广告中提取点击URL链接,兼容压缩和非压缩格式的Flash。8.限于纯商业广告分离,即与网站无合作关系的,广告点击后,链接跳转到与该媒体无直接关系的网站。9.无需广告特征数据库作引导,无需对被监测页面进行广告特征描述,对任何页面可直接进行抓取分析。10.跨媒体广告数据聚合,可自动分析出,一个广告活动投放在多个网络媒体上的投放之间的关系,并进行数据聚合。11.广告投放位置信息完整,可记录广告出现的页面的完整URL,记录广告出现在页面的具体坐标位置。附图说明下面结合附图,通过对本专利技术的具体实施方式的详细描述,将使本专利技术的技术方案及其他有益效果显而易见。图1为本专利技术互联网广告信息处理方法示意图。具体实施方式为了更进一步了解本专利技术的特征,请参阅以下有关本专利技术的详细说明与附图,然而所附图式仅提供参考与说明之用,并非用来对本专利技术的保护范围加以限制。如图1所示,首先,执行页面内容抓取步骤101,该步骤从互联网下载被监测网站页面的内容,并自动由IE浏览器将其解释为用户显示界面,得到原始HTML页面111。然后,执行链接分离步骤102,分离原始HTML页面111中的全部链接信息,记录IE浏览器中所有链接对象的链接,链接对象包括文字链接、图片链接、Flash链接等现存互联网的所有链接方式。对于Flash链接形式,使用模拟点击的方式获得其链接。对于具有跳转功能的链接形式,采用HTTP协议访问的方式获得其最终链接。得到页面元素链接列表112。接下来,执行域名分析步骤103,分析上一步骤102所获得的网页元素链接列表112,将链接中不属于该网站的链接分离出来。如果同一个网站有多个域名指向,则通过在设定监测对象时作多个设定来获取此网站所对应的多个域名。由此,得到非网站内链接列表113。随后,执行URL聚类分析步骤104,:对于所有分析出的外网链接,即非网站内链接列表113中的每一个链接,进行4级聚类分析。例如,此4级聚类分析可以表示为如下格式:-->http://域名级/目录级/文件级?参数级用此4级聚类分析方法表示的网站链接为:http://www.nikefootball.com.cn/wtn/index.php?sn=11231http://www.nikefootball.com.cn/wtn/index.php?sn=3411http://www.nikefootball.com.cn/wtn/news.phphttp://www.nikefootball.com.cn/由此得到链接列表聚类分析表114。最后,执行广告信息存储步骤105,将原始URL保存到数据库内,并将此链接列表聚类分析表114作为索引信息保存在数据索引数据表中。为后期的人工广告信息分拣提供数据支持。用上述的互联网广告信息处理方法来分离、分析广告信息,以新浪(www.sina.com.cn)网站为例,效果举例如下:随机抽取其10个频道中100个页面,共本文档来自技高网
...

【技术保护点】
一种互联网广告信息处理方法,其特征在于,包含如下步骤: 页面内容抓取步骤,从互联网中的网站上下载被监测网站页面的内容,并自动由IE浏览器将该内容解释为用户显示界面,得到原始超文本标志语言页面; 链接分离步骤,分离该原始超文本标志语言页面中的全部链接信息,记录IE浏览器中所有链接对象的链接,得到网页元素链接列表; 域名分析步骤,分析该网页元素链接列表,将链接中不属于该网站的链接分离出来,得到非网站内链接列表; 统一资源定位器聚类分析步骤,对于该非网站内链接列表中的每一个链接,进行聚类分析,得到链接列表聚类分析表。

【技术特征摘要】
1.一种互联网广告信息处理方法,其特征在于,包含如下步骤:页面内容抓取步骤,从互联网中的网站上下载被监测网站页面的内容,并自动由IE浏览器将该内容解释为用户显示界面,得到原始超文本标志语言页面;链接分离步骤,分离该原始超文本标志语言页面中的全部链接信息,记录IE浏览器中所有链接对象的链接,得到网页元素链接列表;域名分析步骤,分析该网页元素链接列表,将链接中不属于该网站的链接分离出来,得到非网站内链接列表;统一资源定位器聚类分析步骤,:对于该非网站内链接列表中的每一个链接,进行聚类分析,得到链接列表聚类分析表。2.根据权利要求1所述的互联网广告信息处理方法,其特征在于,还包括:广告信息存储步骤,将该原始统一资源定位器保存到数据库内,并将该链接列表聚类分析表作为索引信息保存在数据索引数据表中。3.根据权利要求1所述的互联网广告信息处理方法,其特征在于,所述的链接对象为如下形式之一:文字链接、图片链接和Flash链接。4.根据权利要求2所述的互联网广告信息处理方法,其特征在于,所述的链接对象为如下形式之一:...

【专利技术属性】
技术研发人员:杨伟庆
申请(专利权)人:上海艾瑞市场咨询有限公司
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1