System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种网页处理的方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种网页处理的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40356603 阅读:8 留言:0更新日期:2024-02-09 14:42
本申请公开了一种网页处理的方法、装置、电子设备以及存储介质,涉及互联网技术领域。该方法包括:获得目标网页的初始源代码文件和所述初始源代码文件对应的节点树,所述节点树包括节点;根据所述节点的属性特征确定节点内容类型为主体内容的节点;将所述节点内容类型为主体内容的节点合并为一个节点,获得合并后的节点树;根据所述合并后的节点树获得所述目标网页处理后的源代码文件;根据所述处理后的源代码文件显示网页页面。这样,能够提供通用的动态清除网页中的无关内容的方法,提供精简的网页阅读模式,提升用户的阅读体验。

【技术实现步骤摘要】

本申请涉及互联网,具体涉及一种网页处理的方法、装置、电子设备及存储介质


技术介绍

1、通常人们可以通过网页获取文本信息,但是在网页中常常包含了大量的无关内容,例如广告、评论、导航栏等非重要内容。这些非重要内容不仅影响了用户的阅读体验,还会影响网页的加载速度和稳定性。

2、现有技术通常利用网页内容提取工具或者浏览器插件来自动识别网页中的主体内容,清除无关内容。但是这些浏览器插件需要在浏览器应用商店进行手动安装,而且也无法处理所有类型的网页,不具备通用性。

3、因此,如何能够提供一种通用的动态清除网页中的无关内容,提供精简的网页阅读模式,提升用户的阅读体验,成为亟待解决的问题。


技术实现思路

1、有鉴于此,本申请实施例提供了一种网页处理的方法、装置、电子设备及存储介质。本申请实施例提供的上述方法,可以解决现有技术清除网页无关内容的方法不具备通用性,不能提供精简的网页阅读模式的问题。

2、本申请实施例第一方面提供了一种网页处理的方法,该方法包括:

3、获得目标网页的初始源代码文件和所述初始源代码文件对应的节点树,所述节点树包括节点;

4、根据所述节点的属性特征确定节点内容类型为主体内容的节点;

5、将所述节点内容类型为主体内容的节点合并为一个节点,获得合并后的节点树;

6、根据所述合并后的节点树获得所述目标网页处理后的源代码文件;

7、根据所述处理后的源代码文件显示网页页面。

8、本申请实施例第二方面提供了一种网页处理的装置,包括:

9、初始源代码文件获得单元,用于获得目标网页的初始源代码文件和所述初始源代码文件对应的节点树,所述节点树包括节点;

10、节点内容类型确定单元,用于根据所述节点的属性特征确定节点内容类型为主体内容的节点;

11、节点树获得单元,用于将所述节点内容类型为主体内容的节点合并为一个节点,获得合并后的节点树;

12、处理后的源代码文件获得单元,用于根据所述合并后的节点树获得所述目标网页处理后的源代码文件;

13、网页显示单元,用于根据所述处理后的源代码文件显示网页页面。

14、本申请实施例第三方面还提供了一种电子设备,该电子设备包括:

15、处理器;

16、存储器;

17、存储器用于存储网页处理的方法的程序,该程序在被处理器读取执行时,执行如第一方面所述的方法。

18、本申请实施例第四方面还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时,执行如第一方面所述的方法。

19、与现有技术相比,本申请具有以下优点:

20、本申请提供了一种网页处理的方法,首先获得目标网页的初始源代码文件和初始源代码文件对应的节点树,再根据节点树中节点的属性特征确定所述节点的节点内容类型,将确定为主体内容的节点合并为一个节点,获得合并后的节点树,根据合并后的节点树获得目标网页处理后的源代码文件,最后根据处理后的源代码文件显示网页页面。这样,根据节点树的节点属性特征确定节点的节点内容类型,将确定为主体内容的节点合并,获得目标网页处理后的源代码文件,根据处理后的源代码文件显示网页页面,处理后的源代码文件中包含主体内容的节点,去除了无关内容的节点,提供了精简的网页阅读模式,提升用户的阅读体验。

本文档来自技高网...

【技术保护点】

1.一种网页处理的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获得目标网页的初始源代码文件和所述初始源代码文件对应的节点树,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述初始源代码文件进行预处理,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于预处理后的所述初始源代码文件更新节点树,包括:

5.根据权利要求1所述的方法,其特征在于,所述节点的属性特征包括节点文本信息、节点标签类型信息、节点标签深度信息、节点链接信息中的一种或多种。

6.根据权利要求5所述的方法,其特征在于,当所述节点的属性特征包括所述节点文本信息时,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述节点的属性特征确定节点内容类型为主体内容的节点,包括:

8.根据权利要求7所述的方法,其特征在于,

9.根据权利要求1所述的方法,其特征在于,所述根据所述节点的属性特征确定节点内容类型为主体内容的节点,包括:

10.根据权利要求1所述的方法,其特征在于,所述确定节点内容类型为主体内容的节点后,所述方法还包括:

11.根据权利要求1所述的方法,其特征在于,所述根据所述合并后的节点树获得所述目标网页处理后的源代码文件后,所述方法还包括:

12.一种网页处理的装置,其特征在于,包括:

13.一种电子设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在处理器上运行的计算机程序指令;所述处理器执行所述计算机程序指令时实现如上述权利要求1-11任一项所述的网页处理的方法。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述权利要求1-11任一项所述的网页处理的方法。

...

【技术特征摘要】

1.一种网页处理的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获得目标网页的初始源代码文件和所述初始源代码文件对应的节点树,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述初始源代码文件进行预处理,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于预处理后的所述初始源代码文件更新节点树,包括:

5.根据权利要求1所述的方法,其特征在于,所述节点的属性特征包括节点文本信息、节点标签类型信息、节点标签深度信息、节点链接信息中的一种或多种。

6.根据权利要求5所述的方法,其特征在于,当所述节点的属性特征包括所述节点文本信息时,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述节点的属性特征确定节点内容类型为主体内容的节点,包括:

8.根据权利要求7所述的方法,其特征在于,

【专利技术属性】
技术研发人员:杨泽伟
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1