一种web网页的正文内容提取方法、装置、设备及介质制造方法及图纸

技术编号：24410346 阅读：42 留言：0更新日期：2020-06-06 08:55

本申请公开了一种web网页的正文内容提取方法，包括：根据目标web网页的源代码确定出与目标web网页对应的DOM树；其中，DOM树的叶子节点表示目标web网页中的网页内容；按照预设规则对各网页内容进行监听埋点，并统计用户对各网页内容的操作信息；利用预先训练出的决策树根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息分别判断各网页内容是否为正文内容，提取出目标web网页的正文内容。本方法能够提高提取web网页中的正文内容的准确度。本申请还公开了一种web网页的正文内容提取装置、设备及计算机可读存储介质，均具有上述有益效果。

A method, device, device and medium for extracting text content of web pages

全部详细技术资料下载

【技术实现步骤摘要】
一种web网页的正文内容提取方法、装置、设备及介质
本专利技术涉及web网页领域，特别涉及一种web网页的正文内容提取方法、装置、设备及计算机可读存储介质。
技术介绍
随着互联网技术的快速发展与普及，web网页逐渐成为人们获取信息的主要来源之一。但是，与此同时，web网页中的正文内容中往往夹杂着许多无用信息或者垃圾信息，如广告展示、垃圾链接、推荐产品信息、导航条信息和版权说明信息等，这些信息将直接影响用户获取到web网页中的有效的正文内容。现有技术中，通过根据目标web网页的网页内容设置对应的DOM树，再根据文本密度规则、目标web网页的页面布局等规则，提取出目标web网页中的有效的正文内容。但是，由于web网页的页面结构设置越来越复杂，现有技术的方法在提取web网页中正文内容时，将存在提取不准确的情况。因此，如何提高提取web网页中的正文内容的准确度，是本领域技术人员目前需要解决的技术问题。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种web网页的正文内容提取方法，能够提高提取web网页中的正文内容的准确度；本专利技术的另一目的是提供一种web网页的正文内容提取装置、设备及计算机可读存储介质，均具有上述有益效果。为解决上述技术问题，本专利技术提供一种web网页的正文内容提取方法，包括：根据目标web网页的源代码确定出与所述目标web网页对应的DOM树；其中，所述DOM树的叶子节点表示所述目标web网页中的网页内容；按照预设规则对各所述网页内...

【技术保护点】
1.一种web网页的正文内容提取方法，其特征在于，包括：/n根据目标web网页的源代码确定出与所述目标web网页对应的DOM树；其中，所述DOM树的叶子节点表示所述目标web网页中的网页内容；/n按照预设规则对各所述网页内容进行监听埋点，并统计用户对各所述网页内容的操作信息；/n利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容，提取出所述目标web网页的正文内容。/n

【技术特征摘要】
1.一种web网页的正文内容提取方法，其特征在于，包括：
根据目标web网页的源代码确定出与所述目标web网页对应的DOM树；其中，所述DOM树的叶子节点表示所述目标web网页中的网页内容；
按照预设规则对各所述网页内容进行监听埋点，并统计用户对各所述网页内容的操作信息；
利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容，提取出所述目标web网页的正文内容。

2.根据权利要求1所述的方法，其特征在于，在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后，进一步包括：
判断所述网页内容中是否存在敏感词汇；
若是，则发出对应的提示信息。

3.根据权利要求1所述的方法，其特征在于，所述统计用户对各所述网页内容的操作信息具体包括：
统计所述用户浏览各所述网页内容的时间长度和/或所述用户对各所述网页内容的点选操作的次数和/或所述用户在各所述网页内容上进行的输入操作的次数。

4.根据权利要求1所述的方法，其特征在于，在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后，进一步包括：
对所述DOM树中的网页内容进行数据清洗操作。

5.根据权利要求3所述的方法，其特征在于，在所述按照预设规则对各所述网页内容进行监听埋点，并统计用户对各所述网页内容的操作信息之后，进一步包括：
确定出所述用户浏览时间...

【专利技术属性】
技术研发人员：马晓峰，范渊，
申请(专利权)人：杭州安恒信息技术股份有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人