一种网页数据采集方法、装置、设备及介质制造方法及图纸

技术编号:32288988 阅读:12 留言:0更新日期:2022-02-12 19:57
本发明专利技术涉及一种网页数据采集方法、装置、设备及介质,涉及互联网数据采集技术领域,所述方法包括:在网页的源代码中获取网页元素的代码;根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示,所述操作提示用于指导用户选择操作选项;逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;若接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集。解决了数据采集中对技术门槛的局限,降低采集数据对专业技术人员的要求和成本。的要求和成本。的要求和成本。

【技术实现步骤摘要】
一种网页数据采集方法、装置、设备及介质


[0001]本专利技术涉及互联网数据采集
,尤其涉及一种网页数据采集方法、装置、设备及介质。

技术介绍

[0002]目前数据获取的采集产品中普遍对使用者专业技术要求非常高,比如爬虫、前端埋点、数据库导入、日志导入等专业技术都需要懂代码,没有这方面的专业技术知识采集不了数据,因此,对数据的采集受到场景限制和技术门槛限制。

技术实现思路

[0003]本专利技术提供了一种网页数据采集方法、装置、设备及介质,以解决现有数据获取的采集产品中普遍对使用者专业技术要求非常高的问题。
[0004]为了解决上述问题,本专利技术采用以下技术方案:
[0005]第一方面,本专利技术提供了一种网页数据采集方法,包括:
[0006]在网页的源代码中获取网页元素的代码;
[0007]根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;
[0008]将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示,所述操作提示用于指导用户选择操作选项;
[0009]逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;
[0010]若接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集。
[0011]其进一步的技术方案为,所述从所述网页元素的代码中提取操作选项对应的代码作为待显示代码,包括:r/>[0012]利用预设的抽取算法对所述网页元素的代码进行提取,得到操作选项对应的代码,将所述操作选项对应的代码作为待显示代码。
[0013]其进一步的技术方案为,所述根据所述网页元素的代码确定所述网页元素的元素类型,包括:
[0014]将网页的结构元素进行分类后得到所述结构元素的元素类型;
[0015]将所述结构元素的元素类型进行存储;
[0016]根据所述结构元素的元素类型对所述网页元素的代码进行识别,确定所述网页元素的元素类型。
[0017]其进一步的技术方案为,所述将所述待显示代码进行文字化显示,得到操作选项,包括:
[0018]利用预设的显示算法将所述待显示代码进行文字化显示,得到操作选项。
[0019]其进一步的技术方案为,所述在网页的源代码中获取网页元素的代码,包括:
[0020]获取网页元素的点击指令及所述网页元素对应的网页的源代码;
[0021]根据网页元素的点击指令获取网页元素的位置;
[0022]根据网页元素的位置在所述网页的源代码中获取所述网页元素的代码。
[0023]其进一步的技术方案为,所述将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示之后,所述方法还包括:
[0024]根据各个所述网页元素的所述操作选项和所述操作提示出现的先后顺序,建立网页元素层次结构,所述网页元素层次结构包括各层次的网页元素对应的操作提示及操作选项。
[0025]其进一步的技术方案为,所述网页元素的元素类型包括文本、超链接、输入框、按钮、登录、图片、验证码、翻页、表单、页面框架以及页面加载方式中的至少一种。
[0026]第二方面,本专利技术还提供了一种网页数据采集装置,包括用于执行如第一方面所述方法的单元。
[0027]第三方面,本专利技术还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0028]存储器,用于存放计算机程序;
[0029]处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法的步骤。
[0030]第四方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法的步骤。
[0031]本专利技术与现有技术的有益效果是:
[0032]通过在网页的源代码中获取到网页元素的代码,再根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;将所述待显示代码进行文字化显示,得到文字化形式的操作选项,使得用户不用读懂代码就能直接选择操作选项;同时,根据所述网页元素的元素类型形成操作提示从而指导用户选择操作选项,通过操作提示使得用户明白该怎样去进行数据采集的操作;再逐一记录用户选择的操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;当接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集,从而实现数据采集。因此,解决数据采集产品中对技术门槛和采集场景的局限,可以大大降低采集数据对专业技术人员的要求和成本。
附图说明
[0033]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术实施例1提供的一种网页数据采集方法的流程示意图;
[0036]图2为本专利技术实施例2提供的一种网页数据采集方法的流程示意图;
[0037]图3为本专利技术实施例3提供的一种网页数据采集装置的结构框图;
[0038]图4为本专利技术实施例4提供的一种网页数据采集装置的结构框图;
[0039]图5为本专利技术实施例提供的可视化智能提示窗口示意图;
[0040]图6为本专利技术实施例5提出的一种电子设备的结构示意图。
具体实施方式
[0041]为了更充分理解本专利技术的
技术实现思路
,下面结合具体实施例对本专利技术的技术方案进一步介绍和说明,但不局限于此。
[0042]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0044]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0045]实施例1
[0046]如图1所示,图1为本专利技术实施例1提供的一种网页数据采集方法的流程示意图。该方法可应用于电子设备中,电子设备包括处理器、通信接口、存储器和通信总线,其中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页数据采集方法,其特征在于,包括:在网页的源代码中获取网页元素的代码;根据所述网页元素的代码确定所述网页元素的元素类型,从所述网页元素的代码中提取操作选项对应的代码作为待显示代码;将所述待显示代码进行文字化显示,得到操作选项,根据所述网页元素的元素类型显示操作提示,所述操作提示用于指导用户选择操作选项;逐一记录用户选择的所述操作选项,将多个所述操作选项按顺序连接得到数据预采集步骤;若接收到所述数据预采集步骤的执行指令,利用所述数据预采集步骤对所述网页的数据进行采集。2.根据权利要求1所述的网页数据采集方法,其特征在于,所述从所述网页元素的代码中提取操作选项对应的代码作为待显示代码,包括:利用预设的抽取算法对所述网页元素的代码进行提取,得到操作选项对应的代码,将所述操作选项对应的代码作为待显示代码。3.根据权利要求1所述的网页数据采集方法,其特征在于,所述根据所述网页元素的代码确定所述网页元素的元素类型,包括:将网页的结构元素进行分类后得到所述结构元素的元素类型;将所述结构元素的元素类型进行存储;根据所述结构元素的元素类型对所述网页元素的代码进行识别,确定所述网页元素的元素类型。4.根据权利要求1所述的网页数据采集方法,其特征在于,所述将所述待显示代码进行文字化显示,得到操作选项,包括:利用预设的显示算法将所述待显示代码进行文字化显示,得到操作选项。5.根据权利要求1所述的网页数据采集方法,其特征在于,所述在网页的源代码中获取...

【专利技术属性】
技术研发人员:黄海弟刘百灵刘宝强
申请(专利权)人:深圳视界信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1