当前位置: 首页 > 专利查询>北京大学专利>正文

一种网页内容块的边界确定和分割的方法及系统技术方案

技术编号:32676298 阅读:42 留言:0更新日期:2022-03-17 11:32
本申请提供一种网页内容块的边界确定和分割的方法及系统,所述方法包括:获取待分割网页的DOM树;根据获取的所述DOM树,构建与所述DOM树对应的副本DOM树;将所述副本DOM树中的行内节点与相连的文字节点进行合并处理,以及对所述副本DOM树进行去除网页头和网页页脚的预处理,获得目标DOM树;通过预设哈希值算法,计算所述目标DOM树中的各个节点的结构哈希值;根据计算获得的所述各个节点的结构哈希值,对所述待分割网页进行分割,获得多个内容块。旨在能够高效、准确地将网页分割为内容块。准确地将网页分割为内容块。准确地将网页分割为内容块。

【技术实现步骤摘要】
一种网页内容块的边界确定和分割的方法及系统


[0001]本专利技术涉及网页分割
,特别是涉及一种网页内容块的边界确定和分割的方法及系统。

技术介绍

[0002]网页分割方法主要依赖于网页的DOM树结构和视觉特征。其中的启发式规则算法主要通过经验性规则进行分割。然而网页的设计方式繁杂,特定的规则很难适用于所有情形,不断地增加新规则也使得网页分割的效率降低,如HEPS算法判断标题的规则就有6条,VIPS算法判定一个节点是否应该继续分割的规则多达12条。而基于机器学习的算法虽然避免了手动编写规则,且可以利用数据的规模优势,但由于大规模的网页标注数据的缺失,使得基于机器学习的分割算法大多采用聚类这种无监督学习的方式,由此将导致分割准确率低下,甚至低于启发式规则算法。而基于图像的算法仅使用网页的视觉特征,并且以渲染后的图像像素作为输入,像素的数量相较于DOM节点的数量多了一个数量级,这又将导致算法的效率较低,同时,基于图像的网页分割算法的准确率也低于启发式规则算法。
[0003]此外,现有的网页分割方法主要针对静态网页进行分割,而当前许多站本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页内容块的边界确定和分割的方法,其特征在于,所述方法包括:获取待分割网页的DOM树;根据获取的所述DOM树,构建与所述DOM树对应的副本DOM树;将所述副本DOM树中的行内节点与相连的文字节点进行合并处理,以及对所述副本DOM树进行去除网页头和网页页脚的预处理,获得目标DOM树;通过预设哈希值算法,计算所述目标DOM树中的各个节点的结构哈希值;根据计算获得的所述各个节点的结构哈希值,对所述待分割网页进行分割,获得多个内容块。2.根据权利要求1所述的方法,其特征在于,所述根据获取的所述DOM树,构建与所述DOM树对应的副本DOM树,包括:向预设DOM树副本构建算法中,每次输入所述待分割网页的DOM树中的一个节点和该节点对应的父节点;在所述一个节点为非无关节点时,构建与所述非无关节点对应的副本节点,并遍历所述一个节点的子节点,以创建所述一个子节点的所有子节点各自对应的副本子节点;将所述副本子节点中的每个副本子节点与前一个副本子节点相连,由此构建与所述DOM树对应的副本DOM树。3.根据权利要求1所述的方法,其特征在于,对所述副本DOM树进行去除网页头和网页页脚的预处理,包括:对所述副本DOM树中每个节点的包围盒的宽度值进行排序;在所述排序结果中,按从大到小的顺序选择出一个满足预设要求的目标宽度值;将所述副本DOM树中包围盒的宽度值与所述目标宽度值相同的节点,沿y轴顺序排列为数组;对所述数组中的每个节点的文字密度和外链比值进行计算;将所述每个节点中的文字密度低于第一预设阈值的节点,确定为下界节点,以及将所述每个节点中的外链比值高于第二预设阈值的节点,确定为上界节点;根据确定的所述下界节点和所述上界节点,去除所述副本DOM树中位于所述下界节点以上的所有节点和所述上界节点以下的所有节点。4.根据权利要求1所述的方法,其特征在于,所述通过预设哈希值算法,计算所述目标DOM树中的各个节点的结构哈希值,包括:将所述各个节点,分别输入所述预设哈希值算法;在输入所述预设哈希值算法中的节点为叶子节点的情况下,将所述叶子节点的标签值和class属性值初始化为字符串变量;通过对所述字符串变量进行哈希值计算,获得所述叶子节点的结构哈希值。5.根据权利要求1所述的方法,其特征在于,所述通过预设哈希值算法,计算所述目标DOM树中的各个节点的结构哈希值,包括:将所述各个节点,分别输入所述预设哈希值算法;在输入所述预设哈希值算法中的节点为列表节点的情况下,将所述列表节点的标签值和class属性值初始化为字符串变量;将所述列表节点的第一个子节点的结构哈希值和所述列表节点的字符串变量进行拼
接,获得第一字符串变量;通过对所述第一字符串变量进行哈希值计算,获得所述列表节点的结构哈希值。6.根据权利要求1所述的方法,其特征在于,所述通过预设哈希值算法,计算所述目标DOM树中的各个节点的结构哈希值,包括:将所述各个节点,分别输入所述预设哈希值算法;在输入所述预设哈希值算法中的节点为具有子节点,且不为列表节点的目标节点的情况下,将所述目标节点的标签值和class属性值初始化为字符串变量;将所述目标节点的所有子节点按各自的结构哈希值进行排序;将排序后的所有子节点的结构哈希值和所述目标节点的字符串变量进行拼接,获得第二字符串变量;通过对所述第二字符串变量进行哈希值计算,获得所述目标节点的结构哈希值。7.根据权利要求1所述的方法,其特征在于,所述根据计算获得的所述各个节点的结构哈希值,对所述待分割...

【专利技术属性】
技术研发人员:张颖黄罡梅宏
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1