The invention provides a recognition method for Web page logic link block, logical link block concept proposed by the invention, extends the conventional link block category; the logical link block discovery method, avoid the essential traditional link block recognition tag tree analysis or DOM analysis process, discrimination rules link a simple, no complicated calculation; the method of fast speed, strong anti-interference ability, can better adapt to the design specification of the Web page, and do not require the link block link within the theme of cohesion, which also determines the method has potential application values in the Web page the text extraction, but also has wide application prospect in the other link block fine granularity requirement of Web information processing and mining.
【技术实现步骤摘要】
一种Web页面逻辑链接块的识别方法
本专利技术涉及Web页面识别
,应用于网页正文抽取、链接分析统计或非物理链接块分析的相关场合,尤其涉及Web页面逻辑链接块的识别方法。
技术介绍
万维网是一个通过页面之间的链接构建起来的超大型复杂网络。链接在Web信息组织和展示、页面导航等方面发挥着巨大的作用。网络爬虫依靠Web页面之间的链接实现互联网的遍历爬行,互联网用户正是依靠页面之间的链接实现同主题内容的“聚合”阅读。Web页面中的链接往往以不同的粒度块来组织,块粒度越精细则所含链接的主题相关性越高;随着块粒度的增大,链接块的主题“内聚”性逐渐减弱。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在专门针对链接块进行分析的研究中,对链接块粒度的要求往往较为精细,如特定主题链接提取;而在其他非链接块研究中,则对链接块的粒度要求不高,如Web页面文本提取。在技术实现上,视觉上的分块往往也对应着块(block)级标签元素(Block-levelelements)[1],目前涉及链接块相关的应用和研究基本仅针对该实现方式。然而,由于网页设计技术和实现的多样性,视觉上的分块,在实现方式上并不总是采用block类型标签实现,也有可能采用内联类型标签(inlineelements)实现,这也就意味着无法准确的预知设计者使用何种方式实现链接块,或者需要建立在对HTML标签属性的精细解析基础之上,这给基于海量Web数据的一些自动化应用带来了诸多麻烦。Web页面链接块的研究历 ...
【技术保护点】
一种Web页面逻辑链接块的识别方法,其特征在于,包括下述步骤:步骤1:输入网页;步骤2:对网页进行预处理,包括去除脚本代码、去除CSS样式代码、去除空标签;步骤3:将搜索位置P初始化为0,同时链接数计数器M初始化为0;步骤4、从搜索位置P开始搜索第一个链接的结束位置,若搜索到第一个链接的</a>标签位置,则进入步骤5;否,则进入步骤11;步骤5、确定第一个链接的结束位置,将其记为A,并开始搜索下一个链接的正向位置;若搜索到下一个链接的正向位置,则进入步骤6,否,则进入步骤11;步骤6、找到下一个链接的正向位置<a,将其记为B,并计算AB两个位置之间的链接距离,所述的链接距离是Web页面中相邻两个链接之间的距离;步骤7、判断AB距离是否小于所设定的距离阈值d
【技术特征摘要】
1.一种Web页面逻辑链接块的识别方法,其特征在于,包括下述步骤:步骤1:输入网页;步骤2:对网页进行预处理,包括去除脚本代码、去除CSS样式代码、去除空标签;步骤3:将搜索位置P初始化为0,同时链接数计数器M初始化为0;步骤4、从搜索位置P开始搜索第一个链接的结束位置,若搜索到第一个链接的</a>标签位置,则进入步骤5;否,则进入步骤11;步骤5、确定第一个链接的结束位置,将其记为A,并开始搜索下一个链接的正向位置;若搜索到下一个链接的正向位置,则进入步骤6,否,则进入步骤11;步骤6、找到下一个链接的正向位置<a,将其记为B,并计算AB两个位置之间的链接距离,所述的链接距离是Web页面中相邻两个链接之间的距离;步骤7、判断AB距离是否小于所设定的距离阈值dt,若AB距离小于所设定的距离阈值dt,则对初始设置的链接数计数器M增1,即M=M+1,并记录现在的搜索位置P,令P=B+1,返回步骤4;若AB距离不小于所设定的距离阈值,则结束当前逻辑块的搜索工作,将进一步搜索与位置B对应的链接结束位置,并记为C,进入步骤8;步骤8、判断当前的链接计数器M是否小于所设定的链接数阈值Ct;若当前的链接计数器M小于所设定的链接数阈值Ct,则可确定当前的逻辑块为非链接块,进入步骤9;如果当前的链接计数器M不小于所设定的链接数阈值,则可确定当前的逻辑块是链接块,逻辑链接块发现成功,并将所发现的链接块添加到逻辑链接块列表当中,进入步骤9;步骤9、将当前链接计数器M清零,并记录当前搜索位置P为C+1,进入步骤4;步骤10、重复4-9的步骤,直至整个页面扫描处理完毕;步骤11、结束,获取当前网页的逻辑链接块。2.根据权利要求1所述的一种Web页面逻辑链接块的识别方法,其特征在于:所述的步骤1中还包括如下步骤:步骤1.1编码识别:先获取网页编码;步骤1.2网页读取:通过对待识别的WEB网页的HTML文档进行字符扫描,分别识别出各个链接的起始位置和结束位置;定义如下...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。