一种面向互联网数据采集的采全率优化分析方法及系统技术方案

技术编号:33375407 阅读:12 留言:0更新日期:2022-05-11 22:43
本发明专利技术属于数据采集领域,提供了一种面向互联网数据采集的采全率优化分析方法及系统。该方法包括,获取网站全部的可点击栏目页url;根据网站全部的可点击栏目页url,得到栏目页url的栏目url以及列表页html的各个列表url;根据栏目页url的栏目url,得到栏目采全率;根据列表页html的各个列表url,判断是否进行分页采全率,若是,得到分页采全率,否则,得到列表采全率。表采全率。表采全率。

【技术实现步骤摘要】
一种面向互联网数据采集的采全率优化分析方法及系统


[0001]本专利技术属于数据采集领域,尤其涉及一种面向互联网数据采集的采全率优化分析方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]如今随着互联网技术的快速发展,网络上信息资源越来越多,研究人员、企业都倾向于从网络中获取数据资源,众所周知网络上的数据资源基本都是以网页的形式存在,而现有的网页中都具有栏目队列,相应的栏目表中又都存在列表页,列表页下又存在多种分页列表。
[0004]现有的互联网数据采集技术存在数据采集缺失、不完整等情况。

技术实现思路

[0005]为了解决如何实现网页规则的智能配置,进一步提升网页结构分析模型准确率和解析性能,实现采集流程的全部自动化和智能化的问题,本专利技术提供一种面向互联网数据采集的采全率优化分析方法及系统。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术的第一个方面提供一种面向互联网数据采集的采全率优化分析方法。
[0008]一种面向互联网数据采集的采全率优化分析方法,包括:
[0009]获取网站全部的可点击栏目页url;
[0010]根据网站全部的可点击栏目页url,得到栏目页url的栏目url以及列表页html的各个列表url;
[0011]根据栏目页url的栏目url,得到栏目采全率;
[0012]根据列表页html的各个列表url,判断是否进行分页采全率,若是,得到分页采全率,否则,得到列表采全率。
[0013]本专利技术的第二个方面提供一种面向互联网数据采集的采全率优化分析系统。
[0014]一种面向互联网数据采集的采全率优化分析系统,包括:
[0015]栏目页url获取模块,其被配置为:获取网站全部的可点击栏目页url;
[0016]栏目url和列表url获取模块,其被配置为:根据网站全部的可点击栏目页url,得到栏目页url的栏目url以及列表页html的各个列表url;
[0017]栏目采全率优化模块,其被配置为:根据栏目页url的栏目url,得到栏目采全率;
[0018]分页及列表采全率优化模块,其被配置为:根据列表页html的各个列表url,判断是否进行分页采全率,若是,得到分页采全率,否则,得到列表采全率。
[0019]本专利技术的第三个方面提供一种计算机可读存储介质。
[0020]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现
如上述第一个方面所述的面向互联网数据采集的采全率优化分析方法中的步骤。
[0021]本专利技术的第四个方面提供一种计算机设备。
[0022]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的面向互联网数据采集的采全率优化分析方法中的步骤。
[0023]与现有技术相比,本专利技术的有益效果是:
[0024]本专利技术根据采集流程从网站栏目采全率测试和网站列表采全率测试两个环节进行,本专利技术直接通过对全网网站的采集得到所需的栏目页及列表页,无需人工进行网页url整理,节省人力成本大大减少中间工作量,提高采集效率。
[0025]本专利技术根据采集平台列表采集结果进行采全率测试,可以得到分页状态成功率和分页成功率,在进一步分析采集平台当前版本存在优缺点具有重要意义。
附图说明
[0026]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0027]图1是本专利技术实施例一示出的面向互联网数据采集的采全率优化分析方法的流程图。
具体实施方式
[0028]下面结合附图与实施例对本专利技术作进一步说明。
[0029]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0030]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0031]需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
[0032]实施例一
[0033]本实施例提供了一种面向互联网数据采集的采全率优化分析方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于
包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
[0034]获取网站全部的可点击栏目页url;
[0035]根据网站全部的可点击栏目页url,得到栏目页url的栏目url以及列表页html的各个列表url;
[0036]根据栏目页url的栏目url,得到栏目采全率;
[0037]根据列表页html的各个列表url,判断是否进行分页采全率,若是,得到分页采全率,否则,得到列表采全率。
[0038]为了实现对全网采全率优化、提升目标结果,依据采全率测试方案对当前版本采集平台采全率情况进行测试、验证。以及为了更好地与当前版本采集平台采全率进行对比,查看现有采全平台存在问题,本实施例从两个环节进行测试

网站栏目采全率测试、网站列表采全率测试。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向互联网数据采集的采全率优化分析方法,其特征在于,包括:获取网站全部的可点击栏目页url;根据网站全部的可点击栏目页url,得到栏目页url的栏目url以及列表页html的各个列表url;根据栏目页url的栏目url,得到栏目采全率;根据列表页html的各个列表url,判断是否进行分页采全率,若是,得到分页采全率,否则,得到列表采全率。2.根据权利要求1所述的面向互联网数据采集的采全率优化分析方法,其特征在于,所述网站全部的可点击栏目页url的获取过程包括:获取测试网站中html源码及网站对应的url;根据所述测试网站中html源码及网站对应的url,得到网站全部的可点击栏目页url。3.根据权利要求2所述的面向互联网数据采集的采全率优化分析方法,其特征在于,所述根据所述测试网站中html源码及网站对应的url,得到网站全部的可点击栏目页url的过程包括:获取测试网站中html源码,根据测试网站中html源码采集<href>标签中包含的栏目url和栏目名;将采集的栏目url和栏目名保存在字段task_url与column_name中;设置字段website_url,website_name,depth,type用来分别保存网站url、网站名、网站层数和网页类型;得到网站全部的可点击栏目页url。4.根据权利要求3所述的面向互联网数据采集的采全率优化分析方法,其特征在于,根据列表采全率,对比查看url列表中包含结果集数量,得出分页状态成功率和分页成功率。5.根据权利要求1所述的面向互联网数据采集的采全率优化分析方法,其特征在于,所述根据栏目页url的栏目url,得到栏目采全率的过程包括:根据所有可点击栏目页url,从中选取其中部分栏目url为测试做准备,保存在字段urls_result中;调用采集平台栏目解析接口,获得平台采集的url列表;将urls_result中的结果集与所述平台采集的url列表的内容进行对比,查看url列表对结果集的包含数量,获得全网栏目采全率。6.根据权利要求1所述的面向互联网数据采...

【专利技术属性】
技术研发人员:卢凤辛国茂陈通胡艳羽李钊杨春郭磊王瑞霜
申请(专利权)人:山东亿云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1