提取网页页面目标信息的方法、电子设备和介质技术

技术编号：27818332 阅读：67 留言：0更新日期：2021-03-30 10:24

本发明专利技术涉及一种提取网页页面目标信息的方法、电子设备和介质，方法包括步骤S1、获取待提取网页页面的HTML代码，并构建树形结构；步骤S2、遍历所述树形结构，获取标题节点文本数据，并获取每一内容节点的特征信息；步骤S3、基于所有内容节点的路径信息将所有内容节点分组；步骤S4、根据标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组；步骤S5、将目标分组的内容节点作为待分析节点，判断待分析节点中是否包括目标信息，若是，则从待分析节点中获取目标信息，否则，将待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点，直至获取到目标信息。本发明专利技术提高了网页页面目标信息提取的准确度和效率。确度和效率。确度和效率。

全部详细技术资料下载

【技术实现步骤摘要】
提取网页页面目标信息的方法、电子设备和介质

[0001]本专利技术涉及数据处理
，尤其涉及一种提取网页页面目标信息的方法、电子设备和介质。

技术介绍

[0002]在互联网中，每天都会产生海量的网页数据，在对网页数据分析过程中，需要提取目标信息，例如标题、网页文本信息和日期等，现有的网页页面的正文信息大部分的展示形式是html，如果是网络爬虫采集的信息，也有部分是以序列化（json）的结构展示。现有正文提取的方式通过分析各页面块中的文本密度，将文本密度最大的页面块作为正文处理，使用文本密度进行正文提取的方法，但是，这种识别率较低，通常情况下，这些网页页面中经常夹杂着大量无用的内容或这缺失部分正文，例如一些媒体平台支持样式编辑器，让页面结构更加复杂，如推荐链接和宣传视图等噪音信息，会导致文本密度下降，容易造成提取错误，信息准确度低。此外，现有的提取方式是要遍历整个网页页面源码进行提取目标信息的，因此，信息提取效率低。由此可知，如何提高网页页面目标信息提取的准确度和效率成为亟待解决的技术问题。

技术实现思路

[0003]本专利技术目的在于，提供一种提取网页页面目标信息的方法、电子设备和介质，提高了网页页面目标信息提取的准确度和效率。
[0004]根据本专利技术第一方面，提供了一种提取网页页面目标信息的方法，包括：步骤S1、获取待提取网页页面的HTML代码，并基于所述HTML代码构建对应的树形结构；步骤S2、遍历所述树形结构，根据所述树形结构head部分的标题信息获取标题节点文本数据，并从所述树...

【技术保护点】

【技术特征摘要】
1.一种提取网页页面目标信息的方法，其特征在于，包括：步骤S1、获取待提取网页页面的HTML代码，并基于所述HTML代码构建对应的树形结构；步骤S2、遍历所述树形结构，根据所述树形结构head部分的标题信息获取标题节点文本数据，并从所述树形结构获取每一内容节点的特征信息，内容节点特征信息包括路径信息、内容节点文本数据和文本密度，所述内容节点为所述树形结构中除标题节点外的其他节点；步骤S3、基于所有内容节点的路径信息将所有内容节点分组；步骤S4、根据所述标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组；步骤S5、将所述目标分组的内容节点作为待分析节点，判断所述待分析节点中是否包括目标信息，若是，则从所述待分析节点中获取所述目标信息，否则，将所述待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点，直至获取到所述目标信息。2.根据权利要求1所述的方法，其特征在于，所述路径信息为网页页面中主体内容的xpath路径信息，所述步骤S3包括：步骤S31、将每一内容节点的路径信息的下标信息进行模糊处理；步骤S32、将模糊处理后的路径信息一致的内容节点划分至同一分组中。3.根据权利要求1所述的方法，其特征在于，所述步骤S4包括：步骤S41、根据每一分组中的内容节点文本数据获取每一分组对应的文本密度，并按从大到小的顺序排序P1，P2，
…
PN，其中，N表示分组总数；步骤S42、获取排在前预设n个的文本密度P1，P2，
…
Pn，其中，n为大于等于2的正整数,n小于N；步骤S43、获取P1与P2，
…
Pn的数值均差，并与预设的均差阈值比较，若数值均差大于等于所述均差阈值，则将P1对应的分组确定为目标分组。4.根据权利要求3所述的方法，其特征在于，若所述数值均差小于所述均差阈值，则所述步骤S4还包括：步骤S44、判断所述标题节点文本是否为空，若为空，则直接将P1对应的分组确定为目标分组，否则，执行步骤S45，所述标题节点文本为空表示无法确定标题节点；步骤S45、第x组对应的文本密度为Px，获取第x组的文本数据与所述标题节点文本数据的相似度Qx，x的取值为1到N，或者为1到n；步骤S46、获取第x组对应的第一参考值Yx=Px*Qx，将第一参考值最大的分组确定为所述目标分组。5.根据权利要求4所述的方法，其特征在于，所述步骤S45包括：步骤S451、将第x组的文本数据与所述标题节点文本数据进行相似度计算，得到初始相似值a；步骤S452、将第x组...

【专利技术属性】
技术研发人员：张景龙，王殿胜，张乃钊，薄满辉，翟性国，唐红武，卞磊，刘宇，姚远，
申请(专利权)人：中航信移动科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人