网页内容提取方法以及电子设备技术

技术编号:44953573 阅读:18 留言:0更新日期:2025-04-12 01:25
本申请提供了一种网页内容提取方法以及电子设备,其中,该方法包括:对待提取网页进行段落提取,得到待提取网页的至少一个页面段落,根据各页面段落的各标签内容,确定各页面段落中的非标签内容是否为正文内容,若是,则提取正文内容,并将页面段落作为一个目标正文段落,根据待提取网页的页面布局信息,对至少一个目标正文段落进行合并处理,得到待提取网页的正文提取结果。通过对网页内容进行解析,并基于网页内容中的标签识别得到网页的正文内容,可以实现自动化的正文内容提取,本申请不必对网页中的图注、链接等进行预先删除,因此可以减少人工成本,并且针对不同样式的网页具有很好的通用性。

【技术实现步骤摘要】

本申请涉及计算机,具体而言,涉及一种网页内容提取方法以及电子设备


技术介绍

1、网络内容运营过程中通常需要将网页中的正文内容提取出来,而如今互联网媒体的内容样式越来越多样,网页页面的复杂性也与日俱增,如何实现便捷高效的网页正文内容提取就成为了亟待解决的问题。

2、现有技术中进行网页正文内容提取时,一般是通过人工的方式进行。运营人员手动去掉网页页面中的图注、链接以及标题等,保留正文内容,再通过文字识别等方式提取得到网页正文内容。

3、但是,这种方式依赖于运营人员的手动操作,增加了运营人员的工作成本以及维护成本,并且提取的效率也亟待增强。


技术实现思路

1、本申请的目的在于,针对上述现有技术中的不足,提供一种网页内容提取方法以及电子设备,以解决现有技术中网页正文提取成本高、效率低的问题。

2、为实现上述目的,本申请采用的技术方案如下:

3、第一方面,本申请提供了一种网页内容提取方法,所述方法包括:

4、对待提取网页进行段落提取,得到所述待提取网页的至少一个页面段落,各所述页面段落中包括至少一个标签内容和至少一个非标签内容;

5、根据各所述页面段落的各标签内容,确定各所述页面段落中的非标签内容是否为正文内容,若是,则提取所述正文内容,并将所述页面段落作为一个目标正文段落;

6、根据所述待提取网页的页面布局信息,对所述至少一个目标正文段落进行合并处理,得到所述待提取网页的正文提取结果。

7、可选地,所述对待提取网页进行段落提取,得到所述待提取网页的至少一个页面段落,包括:

8、以所述待提取网页的网络地址作为目标转换方法的输入参数,调用所述目标转换方法,将所述网页数据转换为源码文本;

9、调用页面元素提取方法,从所述源码文本中提取到至少一个页面段落。

10、可选地,所述根据各所述页面段落的各标签内容,确定各所述页面段落中的非标签内容是否为正文内容,若是,则提取所述正文内容,并将所述页面段落作为一个目标正文段落,包括:

11、根据各所述页面段落的各标签内容,对各所述页面段落进行过滤处理,得到至少一个待选段落;

12、根据各所述待选段落中的非标签内容,确定各所述待选段落中的非标签内容是否为正文内容;

13、若是,则提取所述正文内容,并将所述待选段落作为一个目标正文段落。

14、可选地,所述根据各所述待选段落中的非标签内容,确定各所述待选段落中的非标签内容是否为正文内容,包括:

15、根据标题标签,获取所述待提取网页的标题文本;

16、对所述待选段落中的非标签内容以及所述待选段落的相邻段落进行语义分析,得到所述待选段落的第一语义分析结果以及所述相邻段落的第二语义分析结果;

17、根据所述第一语义分析结果、所述第二语义分析结果以及所述标题文本,确定所述待选段落的非标签内容对应的相关度结果;

18、根据所述待选段落的标签内容,确定所述待选段落在所述待提取网页中的位置;

19、根据所述相关度结果以及所述待选段落在所述待提取网页中的位置,确定所述待选段落中的非标签内容是否为正文内容。

20、可选地,所述根据所述第一语义分析结果、所述第二语义分析结果以及所述标题文本,确定所述待选段落的非标签内容对应的相关度结果,包括:

21、对所述第一语义分析结果与所述第二语义分析结果进行语义相关度分析,得到第一相关度;

22、对所述第一语义分析结果与所述标题文本进行语义相关度分析,得到第二相关度;

23、根据所述第一相关度以及所述第二相关度,得到所述待选段落的非标签内容对应的相关度结果。

24、可选地,所述根据所述相关度结果以及所述待选段落在所述待提取网页中的位置,确定所述待选段落中的非标签内容是否为正文内容,包括:

25、若所述相关度结果满足预设条件,且,所述待选段落在所述待提取网页中的位置位于预设的位置范围内,则确定所述待选段落中的非标签内容为正文内容。

26、可选地,所述根据各所述页面段落的各标签内容,对各所述页面段落进行过滤处理,得到至少一个待选段落,包括:

27、若所述页面段落的标签内容指示所述页面段落为图片,则将所述页面段落剔除,若所述页面段落的标签内容指示所述页面段落为非图片,则将所述页面段落作为一个待选段落。

28、可选地,所述根据所述待提取网页的页面布局信息,对所述至少一个目标正文段落进行合并处理,得到所述待提取网页的正文提取结果,包括:

29、若所述待提取网页的页面布局信息指示所述待提取网页为单列布局,则根据各所述目标正文段落的位置信息对各所述目标正文段落进行合并处理,得到所述待提取网页的正文提取结果;

30、若所述待提取网页的页面布局信息指示所述待提取网页为多列布局,则根据所述待提取网页的标题标签确定所述待提取网页的起始位置,并按照各所述正文段落的位置信息以及所述待提取网页的起始位置对各所述目标正文段落进行合并处理,得到所述待提取网页的正文提取结果。

31、可选地,所述根据所述待提取网页的页面布局信息,对所述至少一个目标正文段落进行合并处理,得到所述待提取网页的正文提取结果之前,还包括:

32、获取所述待提取网页中各图层标签的属性信息,并根据所述图层标签的属性信息确定所述待提取网页的页面布局信息,和/或,获取所述待提取网页的层叠样式表,并根据所述层叠样式表确定所述待提取网页的页面布局信息。

33、第二方面,本申请提供了一种网页内容提取装置,所述装置包括:

34、提取模块,用于对待提取网页进行段落提取,得到所述待提取网页的至少一个页面段落,各所述页面段落中包括至少一个标签内容和至少一个非标签内容;

35、确定模块,用于根据各所述页面段落的各标签内容,确定各所述页面段落中的非标签内容是否为正文内容,若是,则提取所述正文内容,并将所述页面段落作为一个目标正文段落;

36、合并模块,用于根据所述待提取网页的页面布局信息,对所述至少一个目标正文段落进行合并处理,得到所述待提取网页的正文提取结果。

37、可选地,所述提取模块具体用于:

38、以所述待提取网页的网络地址作为目标转换方法的输入参数,调用所述目标转换方法,将所述网页数据转换为源码文本;

39、调用页面元素提取方法,从所述源码文本中提取到至少一个页面段落。

40、可选地,所述确定模块具体用于:

41、根据各所述页面段落的各标签内容,对各所述页面段落进行过滤处理,得到至少一个待选段落;

42、根据各所述待选段落中的非标签内容,确定各所述待选段落中的非标签内容是否为正文内容;

43、若是,则提取所述正文内容,并将所述待选段落作为一个目标正文段落。

44本文档来自技高网...

【技术保护点】

1.一种网页内容提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对待提取网页进行段落提取,得到所述待提取网页的至少一个页面段落,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据各所述页面段落的各标签内容,确定各所述页面段落中的非标签内容是否为正文内容,若是,则提取所述正文内容,并将所述页面段落作为一个目标正文段落,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据各所述待选段落中的非标签内容,确定各所述待选段落中的非标签内容是否为正文内容,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述第一语义分析结果、所述第二语义分析结果以及所述标题文本,确定所述待选段落的非标签内容对应的相关度结果,包括:

6.根据权利要求4所述的方法,其特征在于,所述根据所述相关度结果以及所述待选段落在所述待提取网页中的位置,确定所述待选段落中的非标签内容是否为正文内容,包括:

7.根据权利要求3所述的方法,其特征在于,所述根据各所述页面段落的各标签内容,对各所述页面段落进行过滤处理,得到至少一个待选段落,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据所述待提取网页的页面布局信息,对所述至少一个目标正文段落进行合并处理,得到所述待提取网页的正文提取结果,包括:

9.根据权利要求8所述的方法,其特征在于,所述根据所述待提取网页的页面布局信息,对所述至少一个目标正文段落进行合并处理,得到所述待提取网页的正文提取结果之前,还包括:

10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至9中任一项所述网页内容提取方法的步骤。

...

【技术特征摘要】

1.一种网页内容提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对待提取网页进行段落提取,得到所述待提取网页的至少一个页面段落,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据各所述页面段落的各标签内容,确定各所述页面段落中的非标签内容是否为正文内容,若是,则提取所述正文内容,并将所述页面段落作为一个目标正文段落,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据各所述待选段落中的非标签内容,确定各所述待选段落中的非标签内容是否为正文内容,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述第一语义分析结果、所述第二语义分析结果以及所述标题文本,确定所述待选段落的非标签内容对应的相关度结果,包括:

6.根据权利要求4所述的方法,其特征在于,所述根据所述相关度结果以及所述待选段落在所述待提取网页中的位置,确...

【专利技术属性】
技术研发人员:李鸣肖云王震杨俊杰宋超
申请(专利权)人:未来电视有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1