用于识别网页中的广告的方法和系统技术方案

技术编号:5192871 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及网页识别技术,尤其涉及识别网页中的广告的技术。本发明专利技术提供了一种用于识别网页中的广告的方法,包括:接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。

【技术实现步骤摘要】

本专利技术涉及网页识别技术,尤其涉及识别网页中的广告的技术。技术背景随着互联网技术的不断进步,互联网网民的不断增加,电子商务产业取得了蓬勃 发展,原来在电视、楼宇等播放的广告也越来越多地流向互联网。对于企业而言,为了取得 更好的宣传效果,就不能忽视在互联网上投放广告的重要性,而且互联网广告以其形式多 样、制作快捷、易于变换等特性也受到了越来越多的企业的欢迎。对于许多互联网内容提 供商尤其是大型门户网站而言,互联网广告收入已经成为其主要的收入来源和盈利模式之 一。互联网内容提供商或者网站经常通过统计用户对广告的点击量来向广告主收取广告 费。许多企业对投放在网页上的广告都具有很大的兴趣,并且这些广告信息可以被用 于许多广告数据应用中,例如基于互联网在线广告的分布情况估算竞争对手的广告投资 等。然而,由于互联网广告的排版布局、格式类型在不同的网站和网页间都具有很大的差 异,因此如何精确地从不同的网页中检测出不同的广告仍然是一个亟待解决的难题。即使 对于同一网页而言,广告主的改变也会导致广告投放的变化。目前检测网页广告的方法主要是设定简单的规则来对网页进行分析,从而找出网 页中的广告。例如,这样的规则可以是凡是位于网页左下角的方框均为广告;凡是具有闪 烁效果弹出窗口均为广告等。但问题在于网页上越来越多的广告以链接的形式存在,甚至 以非广告性质的文字标题存在。因此,试图依靠简单地规则来全面准确地找出网页中的广 告是难以实现的,这样的方法无法发现大量与简单地规则不匹配的网页广告。
技术实现思路
为此,本专利技术提供了一种用于识别网页中的广告的方法和系统,以便克服现有技 术中的问题。本专利技术的构思是基于下面的考虑为了计费的方便,大部分网站的广告都具有 相同的链接模式,也就是说广告的URL地址都具有相同或相似的模式,通过找出这些具有 相同或相似的URL地址模式的网页节点,就可以更全面准确地找出网页或网站中的广告。根据本专利技术的一个方面,提供了一种用于识别网页中的广告的方法,包括接收种 子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则 以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到 所述种子广告的链接模式;以及利用所述链接模式,识别所述种子网页所在的网站中除了 所述种子广告外的其它广告。在本专利技术的一个实施方式中,所述用于识别网页中的广告的方法中的接收种子网 页的步骤还包括通过在所述种子网页所在的网站中扩展所接收到的种子网页得到多个种 子网页。根据本专利技术的另一方面,提供了一种用于识别网页中的广告的系统,包括接收种子网页的装置;通过分析所述种子网页的源代码得到所述种子网页的节点特征的装置;根 据预设的规则以及所述节点特征,确定所述种子网页中的种子广告的装置;通过分析所述 种子广告的链接得到所述种子广告的链接模式的装置;以及利用所述链接模式,识别所述 种子网页所在的网站中除了所述种子广告外的其它广告的装置。在本专利技术的一个实施方式中,所述接收种子网页的装置还包括通过在所述种子 网页所在的网站中扩展所接收到的种子网页得到多个种子网页的装置。通过本专利技术的方法和系统,可以识别出大量的非种子广告的其它广告,从而使得 用户能够更全面、准确、迅速地识别类型、图案愈加多样的网页广告,带来了良好的用户体 验,更好地满足了商业的需求。附图说明通过对结合附图所示出的实施方式进行详细说明,本专利技术的上述以及其他特征将 更加明显,本专利技术附图中相同的标号表示相同或相似的部件。在附图中,图1示出了根据本专利技术一实施方式的用于识别网页中的广告的方法的流程图2示出了根据本专利技术另一实施方式的用于识别网页中的广告的方法的流程图3示出了根据本专利技术一实施方式的利用正则表达式对URL特征进行分析的表;图4A示出了根据本专利技术示例性的两个种子网页及其对应的HTML源代码;图4B示出了分析所得到的图4A中的第一个种子网页中的节点特征;图4C示出了根据分析所得到的两个种子网页中的节点特征和预设的规则而确定 并被标识的种子广告;图5示出了根据本专利技术一实施方式的用于识别网页中的广告的系统的框图6示出了根据本专利技术另一实施方式的用于识别网页中的广告的系统的框图;具体实施方式在下文中,将参考附图通过实施方式对本专利技术提供的用于识别网页中的广告的方 法和系统进行详细地描述。图1示出了根据本专利技术一实施方式的用于识别网页中的广告的方法的流程图。在 图1中,步骤从101开始,接收种子网页。种子网页是指被输入用于检索其中包含的广告,或 者被输入用于检索其所在的网站上所包含的广告的网页。种子网页可以由用户指定或者输 入,也可以随机在网站上抓取或者按照一定的规则在网站上抓取。种子网页既可以是一个 网页,也可以是多个网页。步骤101中接收种子网页在根据本专利技术的一个实施方式中可以 是直接接收种子网页的web页面;在根据本专利技术的另一个实施方式中可以是接收种子网页 的URL地址;在根据本专利技术的又一个实施方式中可以是接收种子网页的源代码,例如HTML 源代码。接收到种子网页后,在步骤103中分析得到种子网页的节点特征。这里的分析指 的是对种子网页的源代码例如HTML代码进行分析。需要明确一下网页的节点的概念。本领 域技术人员公认的,在HTML代码中,网页是以Dom Tree的树结构形式存在的,其中的树结 构的各个节点即为网页的节点。举例而言,对于下面这个HTML代码<a href = “ http:// www.w3schools.com >Visit W3Schools.com! </a>,其含义是指向一个链接 http://www. w3schools. com,相应的锚文本显示为“Visit W3Schools. com ! ”,其中的“<a>”标签即 定义了一个网页节点,该类网页节点可以按照两种方式使用一是创建到另一文件(页面) 的链接;二是在一个文件内创建书签。简单地理解,在HTML源代码中被尖括号括起来的部 分即为网页的节点。种子网页的节点特征包括下列参数中的一个或多个位置、形状、高度、 宽度、面积和类型,并且节点特征还可能包括这些参数之外的其它参数,只要是用来描述节 点的特征的参数即可。本领域技术人员可以根据需要选择这些参数中的一个或多个作为种 子网页的节点特征。根据本专利技术的一个实施方式,通过模拟执行所述种子网页的源代码(例如HTML 代码)来得到种子网页的节点特征参数(如长、宽等),这种方式将在附图4以及对应的 文字说明中具体描述。根据本专利技术的另一实施方式,所述种子网页的源代码中可以包含 了关于各个节点特征的参数信息,通过直接读取所述种子网页的源代码就可以得到种子 网页的节点特征参数。例如以节点<img src = adl.jpg >为例,原先的<img src = “adl. jpg,,> 制定长宽后代码如下<img src= adl.jpg align = bottom width =240 height = 80 />,其中限定了位置参数(align)、宽度参数(width)和高度 参数(height),通过读取这样的HTML代码即可得到该网页节点的特本文档来自技高网...

【技术保护点】
一种用于识别网页中的广告的方法,包括:接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。

【技术特征摘要】
1.一种用于识别网页中的广告的方法,包括 接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广生1=1 O2.如权利要求1所述的方法,其中所述种子网页包括多个处在同一网站上的网页。3.如权利要求1所述的方法,其中接收种子网页的步骤还包括通过在所述种子网页所在的网站中扩展所接收到的种子网页,得到多个种子网页。4.如权利要求1-3任一所述的方法,所述其它广告位于所述种子网页中。5.如权利要求1-4任一所述的方法,其中种子网页的节点是指种子网页的源代码中的 Dom Tree 节点。6.如权利要求1-5任一所述的方法,其中种子网页的节点特征包括下列参数中的一个 或多个位置、形状、高度、宽度、面积和类型。7.如权利要求6所述的方法,其中预设的规则是依据所述参数中的一个或多个设定的。8.如权利要求1-7任一所述的方法,在根据预设的规则以及所述节点特征确定所述种 子网页中的种子广告的步骤中,通过将所述预设的规则以及所述节点特征进行匹配来确定 所述种子网页中的种子广告。9.如权利要求1-8任一所述的方法,在利用所述链接模式,识别所述种子网页所在的 网站中除了所述种子广告外的其它广告的步骤中,通过将所述链接模式与所述种子网页所 在的网站上的除了种子广告网页节点外的其它网页节点的链接进行匹配,来识别所述种子 网页所在的网站中除了所述种子广告外的其它广告。10.一种用于识别网页中的广告的系统,包括 接收种子...

【专利技术属性】
技术研发人员:包胜华张小洵张俐苏中
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1