一种网页分页方法、装置及计算机可读存储介质制造方法及图纸

技术编号:38992338 阅读:11 留言:0更新日期:2023-10-07 10:22
本发明专利技术公开了一种网页分页方法、装置及计算机可读存储介质,包括:对网站中的网页自动化识别并进行搜索,使用网络爬虫爬取网页搜索的结果,对网页的搜索结果进行特征信息抓取得到分页元素;将网页解析为一颗文档对象模型树,遍历出文档对象模型树中包含特征信息的父亲节点,筛选出符合分页元素的父亲节点作为候选节点;获取所有父亲节点的孩子结点以及根节点的叶子结点,进行文本特征过滤,以及分页超链接过滤,最终得到分页结点用于网页分页;设置分页记录数据库,根据分页记录数据库中的分页参数计算分页标准,用于提高分页效率。用于提高分页效率。用于提高分页效率。

【技术实现步骤摘要】
一种网页分页方法、装置及计算机可读存储介质


[0001]本专利技术涉及互联网分页技术,具体涉及一种网页分页方法、装置及计算机可读存储介质。

技术介绍

[0002]随着互联网时代的发展,越来越多的用户选择使用手机进行算上网,根据互联网的统计,我国的网民数量逐年增长,使用手机上网的人数比例不断增大。当前常用网站数目众多,质量参差不齐,容易造成用户下载后遭受隐私泄露、恶意扣费、电信诈骗等威胁,所以,对这些网站的安装包进行实时爬取并监控是降低危害是有必要的。针对每家网站的安全审核机制不同,则会有不同的人员上传恶意软件,这些恶意软件也会有多种新的攻击技术,如利于调试接口感染传播、拦截路由器配置、恶意修建板块内容进行攻击等。
[0003]因此,基于分页链接的识别算法,现有研究中存在的主要问题是识别准确率比较高的算法,往往依赖网页的视觉信息,需要浏览器进行渲染,然而这会导致识别分页的时间变长,而对于识别短的算法,其准确率又较低,难以满足系统的要求,对于信息提取算法而言,现有研究现状的主要问题是在不依赖网页布局特征的情况下,提取网络中的数据效率较差,所以需要一种网页网页分页方法安全高效的提取网页中的信息。

技术实现思路

[0004]本专利技术提供一种网页分页方法,装置及计算机可读存取介质,以解决现有技术中存在的上述问题。
[0005]一种网页分页方法,包括:
[0006]S10:对网站中的网页自动化识别并进行搜索,使用网络爬虫爬取网页搜索的结果,对网页的搜索结果进行特征信息抓取得到分页元素;<br/>[0007]S20:将网页解析为一颗文档对象模型树,遍历出文档对象模型树中包含特征信息的父亲节点,筛选出符合分页元素的父亲节点作为候选节点;
[0008]S30:获取所有父亲节点的孩子结点以及根节点的叶子结点,进行文本特征过滤,以及分页超链接过滤,最终得到分页结点用于网页分页;
[0009]S40:设置分页记录数据库,根据分页记录数据库中的分页参数计算分页标准,用于提高分页效率。
[0010]优选的,步骤S20,包括:
[0011]S21:构架页码识别框架,选取网站中的页面进行下载,将下载后的页面解析为一颗文档对象模型树,第一次遍历文档对象模型树的每一个节点;
[0012]S22:使用页码识别框架对遍历到的父亲节点进行分析,判断父亲节点是否能作为容纳页面中特征信息的父亲节点,若是,则将当前父亲节点作为候选节点;
[0013]S23:对候选节点中的孩子节点进行分析,最终输出包含页面中特征信息的所有节点形成有效页码链接列表。
[0014]优选的,步骤S23之后,还包括:
[0015]S24:采用深度优先倒序遍历的方式第二次遍历整个文档对象模型树,用于筛选出页面中作为候选节点的父亲节点,;
[0016]S25:设置不同类型的分页标签,根据所有父亲节点的不同分页标签类型对父亲节点进行筛选,对文档对象模型树中不具有分页标签的分页元素能力的父亲节点进行过滤;
[0017]S26:提取分页标签中带有分页关键词的属性值,并将分页标签添加至有效页码链接列表中;
[0018]S27:构建节点集合列表,用于记录第二次遍历过程中所有带有分页标签的父亲节点,判断有效页码链接列表中的内容是否为空,若是,则将节点集合列表返还到网页中。
[0019]优选的,步骤S30,包括:
[0020]S31:获取包含所有分页元素的父亲节点,对文档对象模型树进行过滤,使用深度遍历算法对父亲节点的孩子节点以及根节点的叶子节点进行遍历;
[0021]S32:获取孩子节点以及根节点的叶子节点中与分页元素相关的文本值,并存储到有效页码链接列表中;
[0022]S33:对孩子节点以及叶子节点中的文本值进行有效文本判断,统计有效文本的节点数量;
[0023]S34:计算有效文本的节点数量与所有孩子节点和叶子节点中文本总数量的比值,在比值高于预设的阈值时,将当前节点判断为符合分页的候选节点,否则视为无效的节点。
[0024]优选的,步骤S30,还包括:
[0025]S35:获取有效页码连接列表,提取每个候选节点的统一资源定位符,构成超链接地址定位列表;
[0026]S36:设置分割标识符,用于对超链接地址定位列表中的每个统一资源定位符进行分割,并比较分割后统一资源定位符中分页元素的不同;
[0027]S37:设置分割条件,用于对统一资源定位符所在节点形成的路径进行分割,并判断包含数字的分页元素是否符合当前页面页码总数范围内;
[0028]S38:获取分割完成的候选结点作为分页结点,应用到网页分页操作中。
[0029]优选的,步骤S40,包括:
[0030]S41:构建分页记录数据库,用于存储每一次触发网页在分页操作过程中形成的数据记录;
[0031]S42:在分页记录数据库中设置分页队列,用于分页记录数据库将数据记录进行分批次的加载,当分页队列中的数据内容为空时,则分页队列处于等待状态;
[0032]S43:将分页记录数据库中的数据记录总数量、分页队列获取批量分页总次数以及分页队列中存在数据记录总数量作为分页参数,计算网页分页的消耗时间以及平均速度作为分页标准;
[0033]S44:分析计算得到的分页标准,对分页队列进行更新,用于提高分页效率。
[0034]一种网页分页装置,包括:
[0035]网页解析模块:对网站中的网页自动化识别并进行搜索,使用网络爬虫爬取网页搜索的结果,对网页的搜索结果进行特征信息抓取得到分页元素,将网页解析为一颗文档对象模型树;
[0036]节点筛选模块:筛选出文档对象模型树中包含特征信息的父亲节点,筛选出符合分页元素的父亲节点作为候选节点;
[0037]节点分页模块:获取所有父亲节点的孩子结点以及根节点的叶子结点,进行文本特征过滤,以及分页超链接过滤,最终得到分页结点用于网页分页;
[0038]分页标准模块:设置分页记录数据库,根据分页记录数据库中的分页参数计算分页标准,用于提高分页效率。
[0039]优选的,所述节点筛选模块,包括:
[0040]框架构建单元:构架页码识别框架,选取网站中的页面进行下载,将下载后的页面解析为一颗文档对象模型树,第一次遍历文档对象模型树的每一个节点;
[0041]节点遍历单元:使用页码识别框架对遍历到的父亲节点进行分析,判断父亲节点是否能作为容纳页面中特征信息的父亲节点,若是,则将当前父亲节点作为候选节点;
[0042]节点分析单元:对候选节点中的孩子节点进行分析,最终输出包含页面中特征信息的所有节点形成有效页码链接列表。
[0043]优选的,所述节点分析单元之后,还包括:
[0044]节点筛选单元:采用深度优先倒序遍历的方式第二次遍历整个文档对象模型树,用于筛选出页面中作为候选节点的父亲节点;
[0045]节点过滤单元:设置不同类型的分页本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页分页方法,其特征在于,包括:S10:对网站中的网页自动化识别并进行搜索,使用网络爬虫爬取网页搜索的结果,对网页的搜索结果进行特征信息抓取得到分页元素;S20:将网页解析为一颗文档对象模型树,遍历出文档对象模型树中包含特征信息的父亲节点,筛选出符合分页元素的父亲节点作为候选节点;S30:获取所有父亲节点的孩子结点以及根节点的叶子结点,进行文本特征过滤,以及分页超链接过滤,最终得到分页结点用于网页分页;S40:设置分页记录数据库,根据分页记录数据库中的分页参数计算分页标准,用于提高分页效率。2.根据权利要求1所述的一种网页分页方法,其特征在于,步骤S20,包括:S21:构架页码识别框架,选取网站中的页面进行下载,将下载后的页面解析为一颗文档对象模型树,第一次遍历文档对象模型树的每一个节点;S22:使用页码识别框架对遍历到的父亲节点进行分析,判断父亲节点是否能作为容纳页面中特征信息的父亲节点,若是,则将当前父亲节点作为候选节点;S23:对候选节点中的孩子节点进行分析,最终输出包含页面中特征信息的所有节点形成有效页码链接列表。3.根据权利要求2所述的一种网页分页方法,其特征在于,步骤S23之后,还包括:S24:采用深度优先倒序遍历的方式第二次遍历整个文档对象模型树,用于筛选出页面中作为候选节点的父亲节点;S25:设置不同类型的分页标签,根据所有父亲节点的不同分页标签类型对父亲节点进行筛选,对文档对象模型树中不具有分页标签的分页元素能力的父亲节点进行过滤;S26:提取分页标签中带有分页关键词的属性值,并将分页标签添加至有效页码链接列表中;S27:构建节点集合列表,用于记录第二次遍历过程中所有带有分页标签的父亲节点,判断有效页码链接列表中的内容是否为空,若是,则将节点集合列表返还到网页中。4.根据权利要求1所述的一种网页分页方法,其特征在于,步骤S30,包括:S31:获取包含所有分页元素的父亲节点,对文档对象模型树进行过滤,使用深度遍历算法对父亲节点的孩子节点以及根节点的叶子节点进行遍历;S32:获取孩子节点以及根节点的叶子节点中与分页元素相关的文本值,并存储到有效页码链接列表中;S33:对孩子节点以及叶子节点中的文本值进行有效文本判断,统计有效文本的节点数量;S34:计算有效文本的节点数量与所有孩子节点和叶子节点中文本总数量的比值,在比值高于预设的阈值时,将当前节点判断为符合分页的候选节点,否则视为无效的节点。5.根据权利要求1所述的一种网页分页方法,其特征在于,步骤S30,还包括:S35:获取有效页码连接列表,提取每个候选节点的统一资源定位符,构成超链接地址定位列表;S36:设置分割标识符,用于对超链接地址定位列表中的每个统一资源定位符进行分割,并比较分割后统一资源定位符中分页元素的不同;
S37:设置分割条件,用于对统一资源定位符所在节点形成的路径...

【专利技术属性】
技术研发人员:程武阳华明山雷申文
申请(专利权)人:深圳建安润星安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1