当前位置: 首页 > 专利查询>温州大学专利>正文

一种Web页面逻辑链接块的识别方法技术

技术编号:15399473 阅读:60 留言:0更新日期:2017-05-23 12:06
本发明专利技术提出了一种Web页面逻辑链接块的识别方法,本发明专利技术提出的逻辑链接块概念,扩展了常规链接块的范畴;本发明专利技术提出的逻辑链接块的发现方法,避开了传统链接块识别所不可或缺的标签树解析或者DOM解析过程,链接块的判别规则简单,无需复杂计算;本发明专利技术提出的方法分析速度快,抗干扰性强,能更好的适应设计不规范的Web页面,且不要求链接块内的链接主题内聚性高,这也就决定了该方法在Web页面文本抽取方面有着潜在的应用价值,在其他对链接块精细粒度要求不高的Web信息处理和挖掘领域中也具有广泛的应用前景。

Method for identifying logical link block of Web page

The invention provides a recognition method for Web page logic link block, logical link block concept proposed by the invention, extends the conventional link block category; the logical link block discovery method, avoid the essential traditional link block recognition tag tree analysis or DOM analysis process, discrimination rules link a simple, no complicated calculation; the method of fast speed, strong anti-interference ability, can better adapt to the design specification of the Web page, and do not require the link block link within the theme of cohesion, which also determines the method has potential application values in the Web page the text extraction, but also has wide application prospect in the other link block fine granularity requirement of Web information processing and mining.

【技术实现步骤摘要】
一种Web页面逻辑链接块的识别方法
本专利技术涉及Web页面识别
,应用于网页正文抽取、链接分析统计或非物理链接块分析的相关场合,尤其涉及Web页面逻辑链接块的识别方法。
技术介绍
万维网是一个通过页面之间的链接构建起来的超大型复杂网络。链接在Web信息组织和展示、页面导航等方面发挥着巨大的作用。网络爬虫依靠Web页面之间的链接实现互联网的遍历爬行,互联网用户正是依靠页面之间的链接实现同主题内容的“聚合”阅读。Web页面中的链接往往以不同的粒度块来组织,块粒度越精细则所含链接的主题相关性越高;随着块粒度的增大,链接块的主题“内聚”性逐渐减弱。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在专门针对链接块进行分析的研究中,对链接块粒度的要求往往较为精细,如特定主题链接提取;而在其他非链接块研究中,则对链接块的粒度要求不高,如Web页面文本提取。在技术实现上,视觉上的分块往往也对应着块(block)级标签元素(Block-levelelements)[1],目前涉及链接块相关的应用和研究基本仅针对该实现方式。然而,由于网页设计技术和实现的多样性,视觉上的分块,在实现方式上并不总是采用block类型标签实现,也有可能采用内联类型标签(inlineelements)实现,这也就意味着无法准确的预知设计者使用何种方式实现链接块,或者需要建立在对HTML标签属性的精细解析基础之上,这给基于海量Web数据的一些自动化应用带来了诸多麻烦。Web页面链接块的研究历史悠久,对Web页面进行分块或者信息提取的方法众多,SumaiaMohammedAL-Ghuribi[2]将Web页面的抽取方法总结为基于Wrapper、模板、机器学习、视觉布局特征、HTML特征等五类,这五类方法同样适用于Web页面链接块的分块,其中Wrapper和模板法的通用性较差,且一般需要人工参与,并需要更新维护,极为耗时费力,鉴于此,JunfengWang,JunHe等提出了无需模板支持或人工监督的Wrapper算法[3]、[4]、[5],并取得较好的效果;PETERSM提出的机器学习的方法需要借助合适的训练集和适量的特征[6],且难以完全脱离人工监督;利用视觉布局特征的方法的典型代表即VIPS[7],该方法虽然准确率较高,但是对网页的解析要求过于精细,计算消耗大,面对大量非规范化的网页时健壮性难以保证,且在当前普遍采用CSS[8]来控制各页面标签的视觉呈现效果的情况下,还需要另行解析相关CSS,最终导致解析任务量大,程序健壮性欠缺;基于HTML特征的相关方法多偏向一些启发式规则[9]或一些统计规律,通用性有待提高。此外,也有研究者提出其他的一些方法,例如利用模糊神经网络实现页面分块的方法[10],MSS页面分块方法[11]等。虽然相关研究方法多种多样,各有千秋,然而经过分析总结可以发现:目前关于Web页面链接块的发现和识别相关算法基本都是基于标签树[12][13][14][15][16],而DOM[17]是一种构建标签树最为常见的方式,其他方法也基本都以HTML标签树或DOM为基础[18][19]。此外,在对Web页面进行分块的相关研究中,有相当一部分研究基本仅仅针对块级层次的HTML标签元素,如div、table、tr、td等,其中由于table功能的多样性和强劲性[20],早期网页布局、修饰和内容组织几乎对table不可或缺,相应的,部分研究也仅考虑了针对table布局的网页[21],且未能很好的区分用于布局的table和用于内容组织的table。Son专门研究基于table设计的网页,对table的两种作用做了区分并分别识别,实验证明该方法具有一定的先进性。但仅针对table的处理方式局限性还较大,目前的网页设计基本都是table和div共存,Uzun[22]同时考虑这两种情况,先根据div和td获得分块信息,其次结合决策树生成抽取规则,取得较好的效果,特别是在抽取速度上获得了和手工规则相当的性能;Wang[23]则提出BSU概念,并基于此采用聚类和启发式规则两种方法实现页面信息抽取,比采用基于div和table的方法结果更理想。现有的各类对链接块进行分块的算法,尤其是基于标签树的各种方法需要Web页面遵从较好的规范,这种规范既包括HTML、XHTML等标签语法规范(如标签的配对关系),也包括语义设计方面的规范(如通过浏览器渲染后在视觉上呈现块状的内容在实际的代码中通过块级元素div、table等来呈现,视觉上的标题通过h1、h2等标签来呈现等)。但实际上,海量的Web页面中,有相当数量的Web页面并不遵从HTML等标签语法规范和语义设计规范。虽然HTML标签语法上的不规范性可以通过一些现有的或自行设计的Web页面规范化程序进行矫正,但并不能保证100%的正确率;语义设计规范问题的矫正难度则更大。这就决定了基于标签树或DOM的各种方法仅能在设计规范或易于矫正的Web页面中获得良好的效果,在非规范化Web页面中则显得捉襟见肘。由于在已有的Web页面处理相关研究中,一般只将块级标签对应的代码块称为块,这种处理方式虽然极大的提高了诸多Web页面处理的效果,然而在面对纷繁复杂的Web页面时,在某些情况下,这种处理方式可能带来两种后果:误判或无法检出。例如在很多Web页面中,存在着并非块级的广告,在页面正文抽取等研究领域,按传统的块级处理方式,无法检出这些广告链接。参考文献:W3C.HTML4.01Specification[S/OL].[2014-01-23].http://www.w3.org/TR/html401/.AL-GHURIBISM,ALSHOMRANIS.AComprehensiveSurveyonWebContentExtractionAlgorithmsandTechniques[C]//2013InternationalConferenceonInformationScienceandApplications(ICISA).IEEE,2013:1–5.WANGJF,HEXF,WANGC,etal.Newsarticleextractionwithtemplate-independentwrapper[C]//Proceedingsofthe18thinternationalconferenceonWorldwideweb.NewYork,USA:ACMPress,2009:1085.HEJ,GUYQ,LIUHY,etal.Scalableandnoisetolerantwebknowledgeextractionforsearchtasksimplification[J].DecisionSupportSystems,2013,56:156–167.WANGJF,CHENC,WANGC,etal.Canwelearnatemplate-independentwrapperfornewsarticleextractionfromasingletrainingsite?[C]//Proceedingsofthe本文档来自技高网...
一种Web页面逻辑链接块的识别方法

【技术保护点】
一种Web页面逻辑链接块的识别方法,其特征在于,包括下述步骤:步骤1:输入网页;步骤2:对网页进行预处理,包括去除脚本代码、去除CSS样式代码、去除空标签;步骤3:将搜索位置P初始化为0,同时链接数计数器M初始化为0;步骤4、从搜索位置P开始搜索第一个链接的结束位置,若搜索到第一个链接的</a>标签位置,则进入步骤5;否,则进入步骤11;步骤5、确定第一个链接的结束位置,将其记为A,并开始搜索下一个链接的正向位置;若搜索到下一个链接的正向位置,则进入步骤6,否,则进入步骤11;步骤6、找到下一个链接的正向位置<a,将其记为B,并计算AB两个位置之间的链接距离,所述的链接距离是Web页面中相邻两个链接之间的距离;步骤7、判断AB距离是否小于所设定的距离阈值d

【技术特征摘要】
1.一种Web页面逻辑链接块的识别方法,其特征在于,包括下述步骤:步骤1:输入网页;步骤2:对网页进行预处理,包括去除脚本代码、去除CSS样式代码、去除空标签;步骤3:将搜索位置P初始化为0,同时链接数计数器M初始化为0;步骤4、从搜索位置P开始搜索第一个链接的结束位置,若搜索到第一个链接的</a>标签位置,则进入步骤5;否,则进入步骤11;步骤5、确定第一个链接的结束位置,将其记为A,并开始搜索下一个链接的正向位置;若搜索到下一个链接的正向位置,则进入步骤6,否,则进入步骤11;步骤6、找到下一个链接的正向位置<a,将其记为B,并计算AB两个位置之间的链接距离,所述的链接距离是Web页面中相邻两个链接之间的距离;步骤7、判断AB距离是否小于所设定的距离阈值dt,若AB距离小于所设定的距离阈值dt,则对初始设置的链接数计数器M增1,即M=M+1,并记录现在的搜索位置P,令P=B+1,返回步骤4;若AB距离不小于所设定的距离阈值,则结束当前逻辑块的搜索工作,将进一步搜索与位置B对应的链接结束位置,并记为C,进入步骤8;步骤8、判断当前的链接计数器M是否小于所设定的链接数阈值Ct;若当前的链接计数器M小于所设定的链接数阈值Ct,则可确定当前的逻辑块为非链接块,进入步骤9;如果当前的链接计数器M不小于所设定的链接数阈值,则可确定当前的逻辑块是链接块,逻辑链接块发现成功,并将所发现的链接块添加到逻辑链接块列表当中,进入步骤9;步骤9、将当前链接计数器M清零,并记录当前搜索位置P为C+1,进入步骤4;步骤10、重复4-9的步骤,直至整个页面扫描处理完毕;步骤11、结束,获取当前网页的逻辑链接块。2.根据权利要求1所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的步骤1中还包括如下步骤:步骤1.1编码识别:先获取网页编码;步骤1.2网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出各个链接的起始位置和结束位置;定义如下...

【专利技术属性】
技术研发人员:王贤明谷琼朱莉
申请(专利权)人:温州大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1