提取网页页面目标信息的方法、电子设备和介质技术

技术编号:27818332 阅读:67 留言:0更新日期:2021-03-30 10:24
本发明专利技术涉及一种提取网页页面目标信息的方法、电子设备和介质,方法包括步骤S1、获取待提取网页页面的HTML代码,并构建树形结构;步骤S2、遍历所述树形结构,获取标题节点文本数据,并获取每一内容节点的特征信息;步骤S3、基于所有内容节点的路径信息将所有内容节点分组;步骤S4、根据标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;步骤S5、将目标分组的内容节点作为待分析节点,判断待分析节点中是否包括目标信息,若是,则从待分析节点中获取目标信息,否则,将待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到目标信息。本发明专利技术提高了网页页面目标信息提取的准确度和效率。确度和效率。确度和效率。

【技术实现步骤摘要】
提取网页页面目标信息的方法、电子设备和介质


[0001]本专利技术涉及数据处理
,尤其涉及一种提取网页页面目标信息的方法、电子设备和介质。

技术介绍

[0002]在互联网中,每天都会产生海量的网页数据,在对网页数据分析过程中,需要提取目标信息,例如标题、网页文本信息和日期等,现有的网页页面的正文信息大部分的展示形式是html,如果是网络爬虫采集的信息,也有部分是以序列化(json)的结构展示。现有正文提取的方式通过分析各页面块中的文本密度,将文本密度最大的页面块作为正文处理,使用文本密度进行正文提取的方法,但是,这种识别率较低,通常情况下,这些网页页面中经常夹杂着大量无用的内容或这缺失部分正文,例如一些媒体平台支持样式编辑器,让页面结构更加复杂,如推荐链接和宣传视图等噪音信息,会导致文本密度下降,容易造成提取错误,信息准确度低。此外,现有的提取方式是要遍历整个网页页面源码进行提取目标信息的,因此,信息提取效率低。由此可知,如何提高网页页面目标信息提取的准确度和效率成为亟待解决的技术问题。

技术实现思路

[0003]本专利技术目的在于,提供一种提取网页页面目标信息的方法、电子设备和介质,提高了网页页面目标信息提取的准确度和效率。
[0004]根据本专利技术第一方面,提供了一种提取网页页面目标信息的方法,包括:步骤S1、获取待提取网页页面的HTML代码,并基于所述HTML代码构建对应的树形结构;步骤S2、遍历所述树形结构,根据所述树形结构head部分的标题信息获取标题节点文本数据,并从所述树形结构获取每一内容节点的特征信息,内容节点特征信息包括路径信息、内容节点文本数据和文本密度,所述内容节点为所述树形结构中除标题节点外的其他节点;步骤S3、基于所有内容节点的路径信息将所有内容节点分组;步骤S4、根据所述标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;步骤S5、将所述目标分组的内容节点作为待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,将所述待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到所述目标信息。
[0005]根据本专利技术第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本专利技术第一方面所述的方法。
[0006]根据本专利技术第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本专利技术第一方面所述的方法。
[0007]本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术提供的一种提取网页页面目标信息的方法、电子设备和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本专利技术基于待提取网页页面的HTML代码构建树形结构,并将树形结构的内容节点进行分组,再从分组中确定最优组,基于最优组获取目标信息,提高了网页页面目标信息提取的准确度和效率。
[0008]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0009]图1为本专利技术实施例提供的提取网页页面目标信息的方法流程图。
具体实施方式
[0010]为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种提取网页页面目标信息的方法、电子设备和介质的具体实施方式及其功效,详细说明如后。
[0011]本专利技术实施例提供了一种提取网页页面目标信息的方法,如图1所示,包括:步骤S1、获取待提取网页页面的超文本标记语言(HTML)代码,并基于所述HTML代码构建对应的树形结构;步骤S2、遍历所述树形结构,根据所述树形结构head部分的标题信息获取标题节点文本数据,并从所述树形结构获取每一内容节点的特征信息,内容节点特征信息包括路径信息、内容节点文本数据和文本密度,所述内容节点为所述树形结构中除标题节点外的其他节点;其中,标题节点对应在树形结构head部分,内容节点对应在树形结构的body部分。
[0012]步骤S3、基于所有内容节点的路径信息将所有内容节点分组;步骤S4、根据所述标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;其中,所述目标分组为预测的最可能包含目标信息的分组,即最优组。
[0013]步骤S5、将所述目标分组的内容节点作为待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,将所述待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到所述目标信息。
[0014]其中,具体可采用lxml库中的iterchildren()方法对子节点进行升格操作。目标信息具体可包括标题、正文、日期、点赞数、关注数、评论数等信息。
[0015]本专利技术实施例基于待提取网页页面的HTML代码构建树形结构,并将树形结构的内容节点进行分组,再从分组中确定最优组,基于最优组获取目标信息,提高了网页页面目标
信息提取的准确度和效率。
[0016]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
[0017]由于路径信息通常比长,直接获取并存储会占用大量内存,因此,作为一种实施例,所述步骤S2中,从所述树形结构获取每一内容节点的路径信息时,还包括:步骤S21、将每一内容节点的路径信息进行压缩编码处理,具体可采用md5进行压缩编码,通过对路径信息进行压缩编码处理可以调整分组粒度,减少分组路径的长度,且能节省内存。
[0018]作为一种实施例,所述路径信息为网页页面中主体内容的xpath路径信息,所述步骤S3包括:步骤S31、将每一内容节点的路径信息的下标信息进行模糊处理;可以理解的是,对下标进行模糊处理指的是将全部替换为同一的预设字符,或者删除。
[0019]步骤S32、将模糊处理后的路径信息一致的内容节点划分至同一分组中。
[0020]以下以一具体示例进行说明:第一内容节点对应的xpath路径信息为:“//*[@id="root"]/div/div[3]/div[1]/div[1]/div[3]/div/div[1]/p[1]”;将第一内容节点对应的xpath路径信息进行模糊处理后得到:“//*[@id="root"]/div/div$/div$/div$/div$/div/div$/p$”。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提取网页页面目标信息的方法,其特征在于,包括:步骤S1、获取待提取网页页面的HTML代码,并基于所述HTML代码构建对应的树形结构;步骤S2、遍历所述树形结构,根据所述树形结构head部分的标题信息获取标题节点文本数据,并从所述树形结构获取每一内容节点的特征信息,内容节点特征信息包括路径信息、内容节点文本数据和文本密度,所述内容节点为所述树形结构中除标题节点外的其他节点;步骤S3、基于所有内容节点的路径信息将所有内容节点分组;步骤S4、根据所述标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;步骤S5、将所述目标分组的内容节点作为待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,将所述待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到所述目标信息。2.根据权利要求1所述的方法,其特征在于,所述路径信息为网页页面中主体内容的xpath路径信息,所述步骤S3包括:步骤S31、将每一内容节点的路径信息的下标信息进行模糊处理;步骤S32、将模糊处理后的路径信息一致的内容节点划分至同一分组中。3.根据权利要求1所述的方法,其特征在于,所述步骤S4包括:步骤S41、根据每一分组中的内容节点文本数据获取每一分组对应的文本密度,并按从大到小的顺序排序P1,P2,

PN,其中,N表示分组总数;步骤S42、获取排在前预设n个的文本密度P1,P2,

Pn,其中,n为大于等于2的正整数,n小于N;步骤S43、获取P1与P2,

Pn的数值均差,并与预设的均差阈值比较,若数值均差大于等于所述均差阈值,则将P1对应的分组确定为目标分组。4.根据权利要求3所述的方法,其特征在于,若所述数值均差小于所述均差阈值,则所述步骤S4还包括:步骤S44、判断所述标题节点文本是否为空,若为空,则直接将P1对应的分组确定为目标分组,否则,执行步骤S45,所述标题节点文本为空表示无法确定标题节点;步骤S45、第x组对应的文本密度为Px,获取第x组的文本数据与所述标题节点文本数据的相似度Qx,x的取值为1到N,或者为1到n;步骤S46、获取第x组对应的第一参考值Yx=Px*Qx,将第一参考值最大的分组确定为所述目标分组。5.根据权利要求4所述的方法,其特征在于,所述步骤S45包括:步骤S451、将第x组的文本数据与所述标题节点文本数据进行相似度计算,得到初始相似值a;步骤S452、将第x组...

【专利技术属性】
技术研发人员:张景龙王殿胜张乃钊薄满辉翟性国唐红武卞磊刘宇姚远
申请(专利权)人:中航信移动科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1