一种基于网页语义结构的网页分块方法技术

技术编号:20622710 阅读:32 留言:0更新日期:2019-03-20 14:29
本发明专利技术提供一种基于网页语义结构的网页分块方法,涉及网页编辑领域;所述网页分块方法包括以下步骤:S1,将获取到的网页html源码进行预处理,建立DOM语法树;S2,对DOM树进行物理块识别和整合;S3,在物理块类型基础上进行网页识别及监测;S4,输出分块后的网页。本发明专利技术提供的网页分块方法能更准确识别网页页面类型以及网页块的重要度,方便过滤一些广告块和权重较低的块;方便对原网页进行重新排版,并输出结构化数据;根据不同类型网页切分网页块,提升了内容抽取的精准度。

A Web Page Partitioning Method Based on Semantic Structure of Web Pages

The invention provides a web page partitioning method based on the semantic structure of web pages, which relates to the field of web page editing. The web page partitioning method includes the following steps: S1, preprocessing the acquired HTML source code of web pages, establishing DOM grammar tree; S2, recognizing and integrating physical blocks of DOM tree; S3, recognizing and monitoring web pages on the basis of physical block types; S4, outputting the blocked network. Page. The web page partitioning method provided by the invention can more accurately identify the type of web page and the importance of web page blocks, facilitate filtering some advertisement blocks and lower weight blocks, facilitate rearranging the original web page and output structured data, and improve the accuracy of content extraction by dividing web page blocks according to different types of web pages.

【技术实现步骤摘要】
一种基于网页语义结构的网页分块方法
本专利技术涉及网页编辑领域,尤其涉及一种基于网页语义结构的网页分块方法。
技术介绍
为了满足方便手机用户浏览互联网网页,将www网页内容转化为手机终端方便浏览的页面,我们提出了一种基于网页语义结构的网页分块方法,先把网页分成多个块,再跟据分块的把最优的块展现给手机终端用户。目前,该应用领域主要的解决方案为基于视觉的Web页面分块(Vision-basedPageSegmentation,VIPS)。VIPS利用了诸如字体、颜色、大小等版面特征.它根据一定的语义关联规则,将整个网页表示成一棵HTMLDOM树,然后通过横竖线条将节点所对应的分块在网页中分隔开来,构成网页的标准分块,其主要技术特征包括:1)DOM树进行页面语义分块,计算和保存DOM树中的所有节点的视觉信息。2)从视觉特征对页面结构进行挖掘,如页面的视觉提示如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等。3)提取出所有的合适的页面块。4)检测页面块之间的所有的分割条,包括水平和垂直方向,基于这些分割条切割网页块。但是上述现有技术由于视觉特征的复杂性,如何保证视觉特征信息是一大难点;其次,VIPS算法需要计算和保存DOM树中的所有节点的视觉信息,这就导致该算法在时间和内存上消耗比较大,使得在处理含有大量节点的网页时性能不高。
技术实现思路
本专利技术的目的在于提供一种基于网页语义结构的网页分块方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:一种基于网页语义结构的网页分块方法,包括以下步骤:S1,将获取到的网页html源码进行预处理,建立DOM语法树;S2,对DOM树进行物理块识别和整合;S3,在物理块类型基础上进行网页识别及监测;S4,输出分块后的网页。优选地,步骤S1中所述预处理包括空白字符压缩、网页标签统一转换为小写、将非标签的<符号转换为实体、处理需要过滤处理的标签内容和网页字符集识别与转换。优选地,步骤S2包括:S21,计算所述DOM语法树中每个节点的原子标签数量,识别物理块类型;S22,对识别出来的物理块中不符合标准的块进行整合。优选地,所述物理块类型包括原子块和原子集。优选地,S22中所述不符合标准的块指块文字内容少、空html标签、a标签中href地址链接到其它网站以及广告链接的物理块。优选地,步骤S3包括:S31,在物理块类型的基础上再进行粗粒度网页页面类型识别;S32,根据识别出来的物理块类型和粗粒度网页类型再进行更精细的网页逻辑块类型识别;S33,根据网页逻辑块类型检查逻辑块类型相关数据是否与之前识别的粗粒度页面类型相吻合,如不吻合,则在网页逻辑块类型的基础上再进行粗粒度页面类型识别,跳转到S31;S34,在网页逻辑块类型识别的基础上进行精细网页类型识别。优选地,步骤S32之后还包括网页逻辑块融合,对一些识别质量较差的逻辑块进行融合,融合的原则根据粗粒度页面类型而定。优选地,步骤S31中所述粗粒度网页类型包括导航类型网页,正文类型网页和图片类型网页。优选地,步骤S32中所述网页逻辑块类型包括网页公用逻辑块,正文类型网页逻辑块,导航类型网页逻辑块和图片类型网页逻辑块。优选地,步骤S34中所述惊喜网页类型包括门户网站首页、站内导航页、外链接导航列表页、新闻正文页、视频内容页、小说简介页、小说章节页、小说正文页、论坛帖子列表页、论坛帖子评论页、博客内容页、微博页、小图片列表页、大图片页和幻灯片页。本专利技术的有益效果是:本专利技术提供的网页分块方法能更准确识别网页页面类型以及网页块的重要度,方便过滤一些广告块和权重较低的块;方便对原网页进行重新排版,并输出结构化数据;根据不同类型网页切分网页块,提升了内容抽取的精准度。附图说明图1是实施例中基于网页语义结构的网页分块方法处理流程;图2是判断物理原子块算法流程;图3是网页逻辑块类型识别流程。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。实施例本实施例提供一种基于网页语义结构的网页分块方法,具体流程如图1所示:1)预处理,将获取到的网页html源码进行预处理,此处的预处理包括空白字符压缩、网页标签统一转换为小写、将非标签的<符号转换为实体、处理需要过滤处理的标签内容以及网页字符集识别与转换,建立DOM语法树;2)网页物理块类型识别,先计算DOM语法树中每个节点的原子标签数量,再识别物理块类型;3)物理块融合,对识别出来的物理块中质量较低的块进行整合,包括块文字内容少、空html标签、a标签中href地址链接到其它网站以及广告链接等都属于质量较低的物理块;4)粗粒度页面类型识别,在物理块类型的基础上再进行粗粒度网页页面类型识别;粗粒度网页类型包括导航类型网页(导航页、外链导航页、长链接导航页、短链接导航页)、正文类型网页(长正文页、短正文页、连续正文页、间隔正文页)、图片类型网页(大图片类型网页、小图片类型网页)。5)网页逻辑块类型识别,根据识别出来的物理块类型和粗粒度网页类型再进行更精细的网页逻辑块类型识别,网页逻辑块类型包括网页公用逻辑块(页头块、页尾块、广告块、表单块、导航列表块)、正文类型网页逻辑块(正文面包屑、标题块、发布时间块、正文来源块、作者块、正文摘要块、正文图片块、正文内容块、正文多媒体块、相关链接块、页码块、分享块、评论块)、导航类型网页逻辑块(短导航列表块、长导航列表块、主题类型导航列表块)、图片类型网页逻辑块(小图片列表块、图文混排块、大图片块)。6)网页逻辑块融合,因网页逻辑块识别有可能不准确,需要对一些识别质量较差的逻辑块进行融合,融合的原则根据粗粒度页面类型而定。7)粗粒度网页类型检测,根据网页逻辑块类型检查逻辑块类型相关数据是否与之前识别的粗粒度页面类型相吻合,如不吻合,则在网页逻辑块类型的基础上再进行粗粒度页面类型识别,跳转到步骤4)。8)精细网页类型识别,在网页逻辑块类型识别的基础上进行精细网页类型识别,精细网页类型包括门户网站首页、站内导航页、外链接导航列表页、新闻正文页、视频内容页、小说简介页、小说章节页、小说正文页、论坛帖子列表页、论坛帖子评论页、博客内容页、微博页、小图片列表页、大图片页、幻灯片页等。值得注意的是,物理块类型包括原子块和原子集,其中原子块包括多媒体块、小图片块、大图片块、图片块、短文本块、长文本块、文本段落块、短外链接文本块、长外链接文本块、短链接文本块、长链接文本块、外链接图片块和链接图片块,原子集包括横向短链接原子集、纵向短链接原子集、短链接原子集、横向长链接原子集、纵向长链接原子集、长链接原子集、短文本原子集、长文本原子集、横向图片原子集、纵向图片原子集、正文原子集以及图片文字原子集。在进行判断原子块的数量时,方法如图2流程图所示,首先判断是否是一个原子块,如果是,则直接构建原子块,进行物理块识别;若不是,则需要建立原子集,再进行物理块识别,最后输出已经识别了物理块和原子集的DOM语法树。网页进行逻辑块类型识别时,其识别过程如图3所示,首先识别粗粒度页面类型,如正文类、导航类,再根据页面类型识别网页的公用本文档来自技高网...

【技术保护点】
1.一种基于网页语义结构的网页分块方法,其特征在于,包括以下步骤:S1,将获取到的网页html源码进行预处理,建立DOM语法树;S2,对DOM树进行物理块识别和整合;S3,在物理块类型基础上进行网页识别及监测;S4,输出分块后的网页。

【技术特征摘要】
1.一种基于网页语义结构的网页分块方法,其特征在于,包括以下步骤:S1,将获取到的网页html源码进行预处理,建立DOM语法树;S2,对DOM树进行物理块识别和整合;S3,在物理块类型基础上进行网页识别及监测;S4,输出分块后的网页。2.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,步骤S1中所述预处理包括空白字符压缩、网页标签统一转换为小写、将非标签的<符号转换为实体、处理需要过滤处理的标签内容和网页字符集识别与转换。3.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,步骤S2包括:S21,计算所述DOM语法树中每个节点的原子标签数量,识别物理块类型;S22,对识别出来的物理块中不符合标准的块进行整合。4.根据权利要求3所述的基于网页语义结构的网页分块方法,其特征在于,所述物理块类型包括原子块和原子集。5.根据权利要求3所述的基于网页语义结构的网页分块方法,其特征在于,S22中所述不符合标准的块指块文字内容少、空html标签、a标签中href地址链接到其它网站以及广告链接的物理块。6.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,步骤S3包括:S31,在物理块类型的基础上再进行粗粒度网页页面类型识别;S32...

【专利技术属性】
技术研发人员:肖碧松赵芳芳
申请(专利权)人:中国搜索信息科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1