网页正文信息提取方法、装置、设备及介质制造方法及图纸

技术编号:35727650 阅读:16 留言:0更新日期:2022-11-26 18:26
本申请提供一种网页正文信息提取方法、装置、设备及介质,应用于信息抽取技术领域,其中网页正文信息提取方法包括:获取待处理网页对应的DOM树;根据DOM树中每个DOM节点对应的文本信息的文本复杂度,确定待处理网页中网页正文信息所在的网页正文区域;在网页正文区域中提取出网页正文信息。通过文本信息的文本复杂度对网页正文信息进行识别和提取处理,不仅可以准确、高效地从网页中识别提取出文本信息,而且无需针对特定网页结构的网站,具有较强的通用性,具有更好的鲁棒性和更高的准确度。具有更好的鲁棒性和更高的准确度。具有更好的鲁棒性和更高的准确度。

【技术实现步骤摘要】
网页正文信息提取方法、装置、设备及介质


[0001]本申请涉及信息抽取
,具体涉及一种网页正文信息提取方法、装置、设备及介质。

技术介绍

[0002]随着互联网技术发展,互联网站点数量及页面信息呈爆炸式增加,互联网亦已成为人们获取信息的主要方式。然而,由于商业因素的问题,这些站点在为人们提供有价值的信息的同时,还会包含其他信息,例如,广告或其他网站的链接。这些内容不仅会降低人们的阅读体验,还会降低搜索引擎效率。
[0003]在针对网页信息提取处理中,现有方案无法应对复杂多变的网页结构中网页信息的提取,并且仅适用于特定网页结构的网页,普适性不高,且提取效率和准确性亦不高,鲁棒性较差。
[0004]因此,需要一种网页信息提取新方案。

技术实现思路

[0005]有鉴于此,本说明书实施例提供一种网页正文信息提取方法、装置、设备及介质,不针对特定网页结构的网站,既可以适用于类似新闻网站的单记录型网页,也可以适用于百度贴吧等多记录型网页,具有更好的鲁棒性和更高的准确度。
[0006]本说明书实施例提供以下技术方案:本说明书实施例提供一种网页正文信息提取方法,包括:获取待处理网页对应的DOM树,其中,DOM树中的DOM节点包含有DOM节点对应的文本信息;根据DOM树中每个DOM节点对应的文本信息的文本复杂度,确定待处理网页中网页正文信息所在的网页正文区域;在网页正文区域中提取出网页正文信息。
[0007]优选地,获取待处理网页对应的DOM树,包括:通过浏览器或者浏览器内核,对待处理网页对应的网页文档及资源进行解析和渲染;在待处理网页经解析和渲染后,获取待处理网页对应的DOM结构信息和文本信息;根据DOM结构信息和文本信息构建待处理网页对应的DOM树。
[0008]优选地,在对待处理网页对应的网页文档及资源进行解析和渲染前,网页正文信息提取方法还包括:通过浏览器或者浏览器内核,接收待处理网页对应的网页地址;根据网页地址对应的目标链接,获取目标链接对应的网页文档及资源。
[0009]优选地,在获取待处理网页对应的DOM树之后,网页正文信息提取方法,还包括:将与网页正文信息无关的DOM节点及其所有子孙节点从DOM树中删除;
根据DOM节点的标签,将属于同一个段落标签的DOM节点合并到段落标签对应的DOM节点中。
[0010]优选地,根据DOM树中每个DOM节点对应的文本信息的文本复杂度,确定待处理网页中网页正文信息所在的网页正文区域,包括:对于DOM树中的每一个DOM节点,若DOM节点的叶子节点中包含文本内容,则将文本内容提取出来;对文本内容进行分词处理、词性标注处理及依存句法分析处理,得到处理结果;根据处理结果对应的连接词占比、句法树高度、分句数,得到DOM节点对应的文本复杂度;依次遍历所有的DOM节点,若DOM节点的文本复杂度大于复杂度阈值,则将对应的DOM节点加入到候选正文集合中;在候选正文集合中确定待处理网页中网页正文信息所在的网页正文区域。
[0011]优选地,在候选正文集合中确定待处理网页中网页正文信息所在的网页正文区域,包括:对候选正文集合中的DOM节点进行分组;根据每一个分组中的多个DOM节点对应的文本复杂度的求和结果,确定待处理网页中网页正文信息所在的网页正文区域。
[0012]优选地,对候选正文集合中的DOM节点进行分组,包括:获取候选正文集合中每一个DOM节点的左侧边与页面边界之间的距离;将距离相同的DOM节点划分到同一个分组中。
[0013]优选地,根据每一个分组中的多个DOM节点对应的文本复杂度的求和结果,确定待处理网页中网页正文信息所在的网页正文区域,包括:将最高的求和结果对应的分组中所有的DOM节点的最低公共祖先节点对应的网页区域标记为网页正文区域。
[0014]本说明书实施例还提供一种网页正文信息提取装置,包括:获取模块:获取待处理网页对应的DOM树,其中,DOM树中的DOM节点包含有DOM节点对应的文本信息;处理模块:根据DOM树中每个DOM节点对应的文本信息的文本复杂度,确定待处理网页中网页正文信息所在的网页正文区域;提取模块:在网页正文区域中提取出网页正文信息。
[0015]优选地,获取模块,包括:解析模块:通过浏览器或者浏览器内核,对待处理网页对应的网页文档及资源进行解析和渲染;构建模块:在待处理网页经解析和渲染后,获取待处理网页对应的DOM结构信息和文本信息;根据DOM结构信息和文本信息构建待处理网页对应的DOM树。
[0016]优选地,在对待处理网页对应的网页文档及资源进行解析和渲染前,网页正文信息提取装置还包括:接收模块:通过浏览器或者浏览器内核,接收待处理网页对应的网页地址;根据网页地址对应的目标链接,获取目标链接对应的网页文档及资源。
[0017]优选地,在获取待处理网页对应的DOM树之后,网页正文信息提取装置,还包括:删除模块:将与网页正文信息无关的DOM节点及其所有子孙节点从DOM树中删除;合并模块:根据DOM节点的标签,将属于同一个段落标签的DOM节点合并到段落标签对应的DOM节点中。
[0018]优选地,处理模块,包括:第一处理子模块:对于DOM树中的每一个DOM节点,若DOM节点的叶子节点中包含文本内容,则将文本内容提取出来;对文本内容进行分词处理、词性标注处理及依存句法分析处理,得到处理结果;第二处理子模块:根据处理结果对应的连接词占比、句法树高度、分句数,得到DOM节点对应的文本复杂度;依次遍历所有的DOM节点,若DOM节点的文本复杂度大于复杂度阈值,则将对应的DOM节点加入到候选正文集合中;第三处理子模块:在候选正文集合中确定待处理网页中网页正文信息所在的网页正文区域。
[0019]优选地,第三处理子模块,包括:分组单元:对候选正文集合中的DOM节点进行分组;求和单元:根据每一个分组中的多个DOM节点对应的文本复杂度的求和结果,确定待处理网页中网页正文信息所在的网页正文区域。
[0020]优选地,分组单元,包括:分组子单元:获取候选正文集合中每一个DOM节点的左侧边与页面边界之间的距离;将距离相同的DOM节点划分到同一个分组中。
[0021]优选地,求和单元,包括:求和子单元:将最高的求和结果对应的分组中所有的DOM节点的最低公共祖先节点对应的网页区域标记为网页正文区域。
[0022]本说明书实施例还提供一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的网页正文信息提取方法。
[0023]本说明书实施例还提供一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令被处理器执行时执行上述的网页正文信息提取方法。
[0024]与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:通过利用DOM节点的对应的文本信息,依次遍历每一DOM节点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页正文信息提取方法,其特征在于,包括:获取待处理网页对应的DOM树,其中,所述DOM树中的DOM节点包含有所述DOM节点对应的文本信息;根据所述DOM树中每个所述DOM节点对应的所述文本信息的文本复杂度,确定所述待处理网页中所述网页正文信息所在的网页正文区域;在所述网页正文区域中提取出所述网页正文信息;其中,所述根据所述DOM树中每个所述DOM节点对应的所述文本信息的文本复杂度,确定所述待处理网页中所述网页正文信息所在的网页正文区域,包括:对于所述DOM树中的每一个所述DOM节点,若所述DOM节点的叶子节点中包含文本内容,则将所述文本内容提取出来;对所述文本内容进行分词处理、词性标注处理及依存句法分析处理,得到处理结果;根据所述处理结果对应的连接词占比、句法树高度、分句数,得到所述DOM节点对应的所述文本复杂度;依次遍历所有的所述DOM节点,若所述DOM节点的所述文本复杂度大于复杂度阈值,则将对应的所述DOM节点加入到候选正文集合中;在所述候选正文集合中确定所述待处理网页中所述网页正文信息所在的所述网页正文区域。2.根据权利要求1所述的网页正文信息提取方法,其特征在于,在所述获取待处理网页对应的DOM树之后,所述网页正文信息提取方法,还包括:将与所述网页正文信息无关的所述DOM节点及其所有子孙节点从所述DOM树中删除;根据所述DOM节点的标签,将属于同一个段落标签的所述DOM节点合并到所述段落标签对应的所述DOM节点中。3.根据权利要求1所述的网页正文信息提取方法,其特征在于,所述在所述候选正文集合中确定所述待处理网页中所述网页正文信息所在的所述网页正文区域,包括:对所述候选正文集合中的所述DOM节点进行分组;根据每一个所述分组中的多个所述DOM节点对应的所述文本复杂度的求和结果,确定所述待处理网页中所述网页正文信息所在的所述网页正文区域。4.根据权利要求3所述的网页正文信息提取方法,其特征在于,所述对所述候选正文集合中的所述DOM节点进行分组,包括:获取所述候选正文集合中每一个所述DOM节点的左侧边与页面边...

【专利技术属性】
技术研发人员:孙太凤郭行飞刘永丹
申请(专利权)人:中新宽维传媒科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1