【技术实现步骤摘要】
一种网页内容处理方法及装置、存储介质
本专利技术涉及互联网浏览器网页内容提取技术,尤其是一种网页内容处理方法及装置、存储介质。
技术介绍
现有技术中,为避免频繁的翻页操作,在网站存在多页的新闻或小说类正文内容时,可以基于用户的请求将网页中内容提取出来拼接在一个网页中。为提取网页中所需要的正文内容,现有技术中常用的方法是,根据网页中的下页按钮标签位置就近查找正文的位置,或是人工遍历各种网站的网页记下正文对应的标签属性,然后根据该属性来找到正文的标签元素。该方法虽然能够实现提取网页中需要的正文内容,但由于网页布局或标签属性经常变化,往往会造成正文提取不准确,影响用户的阅读体验。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种网页内容处理方法及装置、存储介质,能够精确提取浏览器中所需的网页内容,提高对网页内容提取的准确性。为达到上述目的,本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种网页内容处理方法,包括:在网页快照的直方图统计数组中,确定最长连续图像在纵轴方向的起始位置和终止位置;基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间, ...
【技术保护点】
1.一种网页内容处理方法,其特征在于,所述方法包括:在网页快照的直方图统计数组中,确定最长连续图像在纵轴方向的起始位置和终止位置;基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置;基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置。
【技术特征摘要】
1.一种网页内容处理方法,其特征在于,所述方法包括:在网页快照的直方图统计数组中,确定最长连续图像在纵轴方向的起始位置和终止位置;基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置;基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:提取所述第二起始位置和所述第二终止位置之间的内容为所述网页快照的正文内容。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述网页快照滤波处理;对经过滤波处理的所述网页快照进行二值化处理;对所述经过二值化处理的所述网页快照进行膨胀处理;对所述经过膨胀处理的所述网页快照进行纵轴方向的直方图统计,得到所述纵轴方向的直方图统计数组。4.根据权利要求3所述的方法,其特征在于,所述对所述网页快照滤波处理包括:将所述网页快照对应的网页的链接标签对应点,由显示属性模式切换为隐藏属性模式。5.根据权利要求1所述的方法,其特征在于,所述在网页快照的直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置包括:设置检测数组,所述检测数组的中的元素取值范围与所述直方图统计数组的元素取值范围相同;将所述直方图统计数组的计算结果与预设阈值比较,若所述直方图统计数组的计算结果大于预设阈值,则所述检测数组的计算结果记为1,若所述直方图统计数组的计算结果小于等于预设阈值,则所述检测数组的计算结果记为0;在所述检测数组中搜索计算结果为1的最大连续步长;其中,所述最大连续步长的起始位置为所述最长连续图像在纵轴方向的起始位置,所述最大连续步长的终止位置为所述最长连续图像在纵轴方向的终止位置。6.根据权利要求1所述的方法,其特征在于,所述基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置包括:确定所述网页快照中正文在纵轴方向的第一起始位置的纵坐标取值为:所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值;确定所述网页快照中正文在纵轴方向的第一终止位置的纵坐标取值为:所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值。7.根据权利要求1所述的方法,其特征在于,所述基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置包括:在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置,并且所查找到的起始位置和终止位置满足以下条件:所述查找到的起始位置的纵坐标大于或等于所述第一起始位置的纵坐标,所述查找到的终止位置的纵坐标小于或等于所述第一终止位置的纵坐标。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置之后,将网页的各所述网页快照的所述第二起始位和所述第二终止位置相连接,形成所述网页的正文部分的连续显示信息。9.一种网页内容处理装置,其特征在于,所述装置包括:直方图定位模块,用于在网页快照的直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置;初始定位模...
【专利技术属性】
技术研发人员:曹刚,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。