一种web网页的正文内容提取方法、装置、设备及介质制造方法及图纸

技术编号:24410346 阅读:42 留言:0更新日期:2020-06-06 08:55
本申请公开了一种web网页的正文内容提取方法,包括:根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容;按照预设规则对各网页内容进行监听埋点,并统计用户对各网页内容的操作信息;利用预先训练出的决策树根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息分别判断各网页内容是否为正文内容,提取出目标web网页的正文内容。本方法能够提高提取web网页中的正文内容的准确度。本申请还公开了一种web网页的正文内容提取装置、设备及计算机可读存储介质,均具有上述有益效果。

A method, device, device and medium for extracting text content of web pages

【技术实现步骤摘要】
一种web网页的正文内容提取方法、装置、设备及介质
本专利技术涉及web网页领域,特别涉及一种web网页的正文内容提取方法、装置、设备及计算机可读存储介质。
技术介绍
随着互联网技术的快速发展与普及,web网页逐渐成为人们获取信息的主要来源之一。但是,与此同时,web网页中的正文内容中往往夹杂着许多无用信息或者垃圾信息,如广告展示、垃圾链接、推荐产品信息、导航条信息和版权说明信息等,这些信息将直接影响用户获取到web网页中的有效的正文内容。现有技术中,通过根据目标web网页的网页内容设置对应的DOM树,再根据文本密度规则、目标web网页的页面布局等规则,提取出目标web网页中的有效的正文内容。但是,由于web网页的页面结构设置越来越复杂,现有技术的方法在提取web网页中正文内容时,将存在提取不准确的情况。因此,如何提高提取web网页中的正文内容的准确度,是本领域技术人员目前需要解决的技术问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种web网页的正文内容提取方法,能够提高提取web网页中的正文内容的准确度;本专利技术的另一目的是提供一种web网页的正文内容提取装置、设备及计算机可读存储介质,均具有上述有益效果。为解决上述技术问题,本专利技术提供一种web网页的正文内容提取方法,包括:根据目标web网页的源代码确定出与所述目标web网页对应的DOM树;其中,所述DOM树的叶子节点表示所述目标web网页中的网页内容;按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息;利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容,提取出所述目标web网页的正文内容。优选地,在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后,进一步包括:判断所述网页内容中是否存在敏感词汇;若是,则发出对应的提示信息。优选地,所述统计用户对各所述网页内容的操作信息具体包括:统计所述用户浏览各所述网页内容的时间长度和/或所述用户对各所述网页内容的点选操作的次数和/或所述用户在各所述网页内容上进行的输入操作的次数。优选地,在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后,进一步包括:对所述DOM树中的网页内容进行数据清洗操作。优选地,在所述按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息之后,进一步包括:确定出所述用户浏览时间最长和/或输入操作次数最多的目标网页内容;将所述目标网页内容进行突出显示。优选地,进一步包括:记录存在所述敏感词汇的所述目标web网页的网址。优选地,进一步包括:根据所述文本密度规则、所述页面布局、所述网页内容和对应的操作信息确定出所述目标web网页的网页类型。为解决上述技术问题,本专利技术还提供一种web网页的正文内容提取装置,包括:设置模块,用于根据目标web网页的源代码确定出与所述目标web网页对应的DOM树;其中,所述DOM树的叶子节点表示所述目标web网页中的网页内容;统计模块,用于按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息;提取模块,用于利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容,提取出所述目标web网页的正文内容。为解决上述技术问题,本专利技术还提供一种web网页的正文内容提取设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述任一种web网页的正文内容提取方法的步骤。为解决上述技术问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种web网页的正文内容提取方法的步骤。本专利技术提供的一种web网页的正文内容提取方法,首先根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容;然后按照预设规则对各网页内容进行监听埋点,并统计用户对各网页内容的操作信息;再利用预先训练出的决策树根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息分别判断各网页内容是否为正文内容,提取出目标web网页的正文内容。可见,本方法通过进一步按照预设规则对各网页内容进行监听埋点,并统计出用户对各网页内容的操作信息;再在现有技术根据文本密度规则和页面布局确定目标web网页的正文内的基础上,进一步利用各网页内容和对应的操作信息判断各网页内容是否为正文内容,从而提取出目标web网页的正文内容,从而能够提高提取web网页中的正文内容的准确度。为解决上述技术问题,本专利技术还提供了一种web网页的正文内容提取装置、设备及计算机可读存储介质,均具有上述有益效果。附图说明为了更清楚地说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种web网页的正文内容提取方法的流程图;图2为本专利技术实施例提供的一种web网页的正文内容提取装置的结构图;图3为本专利技术实施例提供的一种web网页的正文内容提取设备的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例的核心是提供一种web网页的正文内容提取方法,能够提高提取web网页中的正文内容的准确度;本专利技术的另一核心是提供一种web网页的正文内容提取装置、设备及计算机可读存储介质,均具有上述有益效果。为了使本领域技术人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。图1为本专利技术实施例提供的一种web网页的正文内容提取方法的流程图。如图1所示,一种web网页的正文内容提取方法包括:S10:根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容。具体的,首先获取目标web网页的HTML源代码,再通过DOM(DocumentObjectModel,文档对象化模型)将HTML源代码进行解析,生成的HTMLtree树状结构和对应访问方法,即,得出DOM树;其中,DO本文档来自技高网...

【技术保护点】
1.一种web网页的正文内容提取方法,其特征在于,包括:/n根据目标web网页的源代码确定出与所述目标web网页对应的DOM树;其中,所述DOM树的叶子节点表示所述目标web网页中的网页内容;/n按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息;/n利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容,提取出所述目标web网页的正文内容。/n

【技术特征摘要】
1.一种web网页的正文内容提取方法,其特征在于,包括:
根据目标web网页的源代码确定出与所述目标web网页对应的DOM树;其中,所述DOM树的叶子节点表示所述目标web网页中的网页内容;
按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息;
利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容,提取出所述目标web网页的正文内容。


2.根据权利要求1所述的方法,其特征在于,在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后,进一步包括:
判断所述网页内容中是否存在敏感词汇;
若是,则发出对应的提示信息。


3.根据权利要求1所述的方法,其特征在于,所述统计用户对各所述网页内容的操作信息具体包括:
统计所述用户浏览各所述网页内容的时间长度和/或所述用户对各所述网页内容的点选操作的次数和/或所述用户在各所述网页内容上进行的输入操作的次数。


4.根据权利要求1所述的方法,其特征在于,在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后,进一步包括:
对所述DOM树中的网页内容进行数据清洗操作。


5.根据权利要求3所述的方法,其特征在于,在所述按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息之后,进一步包括:
确定出所述用户浏览时间...

【专利技术属性】
技术研发人员:马晓峰范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1