一种基于功能区域识别的网页切分方法及装置制造方法及图纸

技术编号:9434566 阅读:105 留言:0更新日期:2013-12-12 00:36
公开了一种基于功能区域识别的网页切分方法及装置。所述方法包括:针对网页生成文档对象模型(DOM)树,DOM树包括用于网页展示的内容;提取DOM树节点的位置信息和大小信息;解析出层叠样式表(CSS)属性中的边界边缘属性和栏外空白区属性;利用网页分块标注算法对网页进行标注,以标注出功能和语义区,并将标注的块标记为粒度候选;根据DOM树结构在剩余网页中扫描图文混排块,将扫描出的图文混排块标记为粒度候选;扫描剩余的块,如果扫描出的块的边界边缘属性和栏外空白区属性不为0,则将所述块标记为粒度候选;将DOM树中剩余没有标记的块标记为粒度候选。

【技术实现步骤摘要】

【技术保护点】
一种基于功能区域识别的网页切分方法,所述方法包括:针对网页生成文档对象模型(DOM)树,DOM树包括用于网页展示的内容;提取DOM树节点的位置信息和大小信息;解析出层叠样式表(CSS)属性中的边界边缘属性和栏外空白区属性;利用网页分块标注算法对网页进行标注,以标注出功能和语义区,并将标注的块标记为粒度候选;根据DOM树结构在剩余网页中扫描图文混排块,将扫描出的图文混排块标记为粒度候选;扫描剩余的块,如果扫描出的块的边界边缘属性和栏外空白区属性不为0,则将所述块标记为粒度候选;将DOM树中剩余没有标记的块标记为粒度候选。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭瑞牛正雨吴一璞李乐丁
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1