网页正文信息提取方法、装置、设备及介质制造方法及图纸

技术编号：35727650 阅读：16 留言：0更新日期：2022-11-26 18:26

本申请提供一种网页正文信息提取方法、装置、设备及介质，应用于信息抽取技术领域，其中网页正文信息提取方法包括：获取待处理网页对应的DOM树；根据DOM树中每个DOM节点对应的文本信息的文本复杂度，确定待处理网页中网页正文信息所在的网页正文区域；在网页正文区域中提取出网页正文信息。通过文本信息的文本复杂度对网页正文信息进行识别和提取处理，不仅可以准确、高效地从网页中识别提取出文本信息，而且无需针对特定网页结构的网站，具有较强的通用性，具有更好的鲁棒性和更高的准确度。具有更好的鲁棒性和更高的准确度。具有更好的鲁棒性和更高的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
网页正文信息提取方法、装置、设备及介质

[0001]本申请涉及信息抽取
，具体涉及一种网页正文信息提取方法、装置、设备及介质。

技术介绍

[0002]随着互联网技术发展，互联网站点数量及页面信息呈爆炸式增加，互联网亦已成为人们获取信息的主要方式。然而，由于商业因素的问题，这些站点在为人们提供有价值的信息的同时，还会包含其他信息，例如，广告或其他网站的链接。这些内容不仅会降低人们的阅读体验，还会降低搜索引擎效率。
[0003]在针对网页信息提取处理中，现有方案无法应对复杂多变的网页结构中网页信息的提取，并且仅适用于特定网页结构的网页，普适性不高，且提取效率和准确性亦不高，鲁棒性较差。
[0004]因此，需要一种网页信息提取新方案。

技术实现思路

[0005]有鉴于此，本说明书实施例提供一种网页正文信息提取方法、装置、设备及介质，不针对特定网页结构的网站，既可以适用于类似新闻网站的单记录型网页，也可以适用于百度贴吧等多记录型网页，具有更好的鲁棒性和更高的准确度。
[0006]本说明书实施例提供以下技术方案：本说明书实施例提供一种网页正文信息提取方法，包括：获取待处理网页对应的DOM树，其中，DOM树中的DOM节点包含有DOM节点对应的文本信息；根据DOM树中每个DOM节点对应的文本信息的文本复杂度，确定待处理网页中网页正文信息所在的网页正文区域；在网页正文区域中提取出网页正文信息。
[0007]优选地，获取待处理网页对应的DOM树，包括：通过浏览器或者浏览器内核，对待...

【技术保护点】

【技术特征摘要】
1.一种网页正文信息提取方法，其特征在于，包括：获取待处理网页对应的DOM树，其中，所述DOM树中的DOM节点包含有所述DOM节点对应的文本信息；根据所述DOM树中每个所述DOM节点对应的所述文本信息的文本复杂度，确定所述待处理网页中所述网页正文信息所在的网页正文区域；在所述网页正文区域中提取出所述网页正文信息；其中，所述根据所述DOM树中每个所述DOM节点对应的所述文本信息的文本复杂度，确定所述待处理网页中所述网页正文信息所在的网页正文区域，包括：对于所述DOM树中的每一个所述DOM节点，若所述DOM节点的叶子节点中包含文本内容，则将所述文本内容提取出来；对所述文本内容进行分词处理、词性标注处理及依存句法分析处理，得到处理结果；根据所述处理结果对应的连接词占比、句法树高度、分句数，得到所述DOM节点对应的所述文本复杂度；依次遍历所有的所述DOM节点，若所述DOM节点的所述文本复杂度大于复杂度阈值，则将对应的所述DOM节点加入到候选正文集合中；在所述候选正文集合中确定所述待处理网页中所述网页正文信息所在的所述网页正文区域。2.根据权利要求1所述的网页正文信息提取方法，其特征在于，在所述获取待处理网页对应的DOM树之后，所述网页正文信息提取方法，还包括：将与所述网页正文信息无关的所述DOM节点及其所有子孙节点从所述DOM树中删除；根据所述DOM节点的标签，将属于同一个段落标签的所述DOM节点合并到所述段落标签对应的所述DOM节点中。3.根据权利要求1所述的网页正文信息提取方法，其特征在于，所述在所述候选正文集合中确定所述待处理网页中所述网页正文信息所在的所述网页正文区域，包括：对所述候选正文集合中的所述DOM节点进行分组；根据每一个所述分组中的多个所述DOM节点对应的所述文本复杂度的求和结果，确定所述待处理网页中所述网页正文信息所在的所述网页正文区域。4.根据权利要求3所述的网页正文信息提取方法，其特征在于，所述对所述候选正文集合中的所述DOM节点进行分组，包括：获取所述候选正文集合中每一个所述DOM节点的左侧边与页面边...

【专利技术属性】
技术研发人员：孙太凤，郭行飞，刘永丹，
申请(专利权)人：中新宽维传媒科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人