The invention provides a web page partitioning method based on the semantic structure of web pages, which relates to the field of web page editing. The web page partitioning method includes the following steps: S1, preprocessing the acquired HTML source code of web pages, establishing DOM grammar tree; S2, recognizing and integrating physical blocks of DOM tree; S3, recognizing and monitoring web pages on the basis of physical block types; S4, outputting the blocked network. Page. The web page partitioning method provided by the invention can more accurately identify the type of web page and the importance of web page blocks, facilitate filtering some advertisement blocks and lower weight blocks, facilitate rearranging the original web page and output structured data, and improve the accuracy of content extraction by dividing web page blocks according to different types of web pages.
【技术实现步骤摘要】
一种基于网页语义结构的网页分块方法
本专利技术涉及网页编辑领域,尤其涉及一种基于网页语义结构的网页分块方法。
技术介绍
为了满足方便手机用户浏览互联网网页,将www网页内容转化为手机终端方便浏览的页面,我们提出了一种基于网页语义结构的网页分块方法,先把网页分成多个块,再跟据分块的把最优的块展现给手机终端用户。目前,该应用领域主要的解决方案为基于视觉的Web页面分块(Vision-basedPageSegmentation,VIPS)。VIPS利用了诸如字体、颜色、大小等版面特征.它根据一定的语义关联规则,将整个网页表示成一棵HTMLDOM树,然后通过横竖线条将节点所对应的分块在网页中分隔开来,构成网页的标准分块,其主要技术特征包括:1)DOM树进行页面语义分块,计算和保存DOM树中的所有节点的视觉信息。2)从视觉特征对页面结构进行挖掘,如页面的视觉提示如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等。3)提取出所有的合适的页面块。4)检测页面块之间的所有的分割条,包括水平和垂直方向,基于这些分割条切割网页块。但是上述现有技术由于视觉特征的复杂性,如何保证视觉特征信息是一大难点;其次,VIPS算法需要计算和保存DOM树中的所有节点的视觉信息,这就导致该算法在时间和内存上消耗比较大,使得在处理含有大量节点的网页时性能不高。
技术实现思路
本专利技术的目的在于提供一种基于网页语义结构的网页分块方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:一种基于网页语义结构的网页分块方法,包括以下步骤:S1,将获取到的网页htm ...
【技术保护点】
1.一种基于网页语义结构的网页分块方法,其特征在于,包括以下步骤:S1,将获取到的网页html源码进行预处理,建立DOM语法树;S2,对DOM树进行物理块识别和整合;S3,在物理块类型基础上进行网页识别及监测;S4,输出分块后的网页。
【技术特征摘要】
1.一种基于网页语义结构的网页分块方法,其特征在于,包括以下步骤:S1,将获取到的网页html源码进行预处理,建立DOM语法树;S2,对DOM树进行物理块识别和整合;S3,在物理块类型基础上进行网页识别及监测;S4,输出分块后的网页。2.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,步骤S1中所述预处理包括空白字符压缩、网页标签统一转换为小写、将非标签的<符号转换为实体、处理需要过滤处理的标签内容和网页字符集识别与转换。3.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,步骤S2包括:S21,计算所述DOM语法树中每个节点的原子标签数量,识别物理块类型;S22,对识别出来的物理块中不符合标准的块进行整合。4.根据权利要求3所述的基于网页语义结构的网页分块方法,其特征在于,所述物理块类型包括原子块和原子集。5.根据权利要求3所述的基于网页语义结构的网页分块方法,其特征在于,S22中所述不符合标准的块指块文字内容少、空html标签、a标签中href地址链接到其它网站以及广告链接的物理块。6.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,步骤S3包括:S31,在物理块类型的基础上再进行粗粒度网页页面类型识别;S32...
【专利技术属性】
技术研发人员:肖碧松,赵芳芳,
申请(专利权)人:中国搜索信息科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。