数据提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37707810 阅读:12 留言:0更新日期:2023-06-01 23:58
本发明专利技术实施例涉及一种数据提取方法、装置、电子设备及存储介质,方法包括:获取URL;确定所述URL对应的目标网页,并通过可视化界面展示所述目标网页;响应于针对所述目标网页的操作,确定所述目标网页中的目标网页标签集合;提取所述目标网页标签集合中的每一目标网页标签对应的数据。由此,实现了通过用户简单操作完成对目标网页数据的提取,提高了网页数据提取的通用性,节约了数据提取时间,提高了数据提取效率,提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
数据提取方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种数据提取方法、装置、电子设备及存储介质。

技术介绍

[0002]实际应用中,经常需要采集某些站点的数据做数据分析或者二次生产使用,一般技术人员需要使用合适的采集工具进行上述站点数据的采集。
[0003]然而,现有技术中的采集工具一般都需要编写代码实现提取数据的规则,这就要求采集工具的使用者有一定的编程知识,甚至需要大量的时间开发,这降低了数据的提取效率,影响用户体验。

技术实现思路

[0004]鉴于此,为解决现有技术中的采集工具一般都需要编写代码实现提取数据的规则,这就要求采集工具的使用者有一定的编程知识,甚至需要大量的时间开发,这降低了数据的提取效率,影响用户体验的技术问题,本专利技术实施例提供一种数据提取方法、装置、电子设备及存储介质。
[0005]第一方面,本专利技术实施例提供一种数据提取方法,所述方法包括:
[0006]获取URL;
[0007]确定所述URL对应的目标网页,并通过可视化界面展示所述目标网页;
[0008]响应于针对所述目标网页的操作,确定所述目标网页中的目标网页标签集合;
[0009]提取所述目标网页标签集合中的每一目标网页标签对应的数据。
[0010]作为一个可能的实现方式,所述响应于针对所述目标网页的操作,确定所述目标网页中的目标网页标签集合,包括:
[0011]捕获外接输入设备的移动轨迹;
[0012]响应于所述移动轨迹,选中所述移动轨迹对应的网页标签边界;
[0013]基于所述网页标签边界,确定所述目标网页中的目标网页标签集合。
[0014]作为一个可能的实现方式,所述基于所述网页标签边界,确定所述目标网页中的目标网页标签集合,包括:
[0015]响应于针对所述网页标签边界对应的网页标签的第一预设操作,将所述网页标签确定为目标网页标签;
[0016]确定所述目标网页中除所述目标网页标签外的其他网页标签与所述目标网页标签的相似度;
[0017]将所述相似度大于预设的第一相似度阈值的其他网页标签与所述目标网页标签组成的集合,确定为所述目标网页中的目标网页标签集合。
[0018]作为一个可能的实现方式,所述确定所述目标网页中除所述目标网页标签外的其他网页标签与所述目标网页标签的相似度,包括:
[0019]获取所述目标网页标签的第一标签内容和所述目标网页标签在所述目标网页中的第一结构信息;
[0020]获取所述目标网页中,除所述目标网页标签以外的其他网页标签的第二标签内容和所述其他网页标签在所述目标网页中的第二结构信息;
[0021]针对每一所述其他网页标签,确定所述第一标签内容与所述第二标签内容的第一相似度,以及所述第一结构信息与所述第二结构信息的第二相似度;
[0022]根据所述第一相似度和所述第二相似度,确定所述目标网页中除所述目标网页标签外的其他网页标签与所述目标网页标签的相似度。
[0023]作为一个可能的实现方式,在所述响应于针对所述网页标签边界对应的网页标签的第一预设操作,将所述网页标签确定为所述目标网页标签之后,所述方法还包括:
[0024]获取所述目标网页标签对应的目标数据,并通过第一对话框展示所述目标数据;
[0025]响应于针对所述第一对话框中目标触控对象的第二预设操作,通过第二对话框展示所述目标数据,其中,每一目标数据对应一个输入框;
[0026]针对每一目标数据对应的输入框,响应于接收到的对所述输入框的输入操作,获取所述输入框中的输入数据,并将所述输入数据作为该输入框对应的目标数据的类型参数;
[0027]在所述提取所述目标网页标签集合中每一目标网页标签对应的数据之后,还包括:
[0028]获取所述数据对应的类型参数,并输出所述数据以及所述数据对应的类型参数。
[0029]作为一个可能的实现方式,在所述将所述网页标签确定为所述目标网页标签之后,所述方法还包括:
[0030]确定所述目标网页中是否存在分页标签;
[0031]在确定所述目标网页中存在分页标签的情况下,解析所述分页标签中的分页参数;
[0032]在确定所述分页参数包括至少两个子网页的情况下,针对所述目标网页中的每一子网页,确定所述子网页中每一第一网页标签与所述目标网页标签的第三相似度;将所述第三相似度大于预设的第二相似度阈值的第一网页标签归入预设的目标网页标签集合,并执行所述提取所述目标网页标签集合中的每一目标网页标签对应的数据的步骤。
[0033]作为一个可能的实现方式,所述方法还包括:
[0034]在确定所述目标网页中不存在分页标签的情况下,检测所述目标网页中是否存在未显示网页;
[0035]在确定所述目标网页中存在未显示网页的情况下,在针对当前显示网页执行完所述提取所述目标网页标签集合中的每一目标网页标签对应的数据的步骤之后,针对所述未显示网页,确定所述未显示网页中的每一第二网页标签与所述目标网页标签的第四相似度;
[0036]将所述第四相似度大于预设的第三相似度阈值的第二网页标签归入预设的目标网页标签集合,并执行所述提取所述目标网页标签集合中的每一目标网页标签对应的数据的步骤。
[0037]作为一个可能的实现方式,在提取所述目标网页标签集合中每一目标网页标签对
应的数据之后,所述方法还包括:
[0038]获取预设的存储路径;
[0039]按照所述存储路径,输出所述数据。
[0040]第二方面,本专利技术实施例提供一种数据提取装置,所述装置包括:
[0041]获取模块,用于获取URL;
[0042]第一确定模块,用于确定所述URL对应的目标网页,并通过可视化界面展示所述目标网页;
[0043]第二确定模块,用于响应于针对所述目标网页的操作,确定所述目标网页中的目标网页标签集合;
[0044]提取模块,用于提取所述目标网页标签集合中的每一目标网页标签对应的数据。
[0045]作为一个可能的实现方式,所述第二确定模块,包括:
[0046]捕获子模块,用于捕获外接输入设备的移动轨迹;
[0047]选中子模块,用于响应于所述移动轨迹,选中所述移动轨迹对应的网页标签边界;
[0048]第一确定子模块,用于基于所述网页标签边界,确定所述目标网页中的目标网页标签集合。
[0049]作为一个可能的实现方式,所述第一确定子模块,包括:
[0050]第一确定单元,用于响应于针对所述网页标签边界对应的网页标签的第一预设操作,将所述网页标签确定为目标网页标签;
[0051]第二确定单元,用于确定所述目标网页中除所述目标网页标签外的其他网页标签与所述目标网页标签的相似度;
[0052]第三确定单元,用于将所述相似度大于预设的第一相似度阈值的其他网页标签与所述目标网页本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据提取方法,其特征在于,所述方法包括:获取URL;确定所述URL对应的目标网页,并通过可视化界面展示所述目标网页;响应于针对所述目标网页的操作,确定所述目标网页中的目标网页标签集合;提取所述目标网页标签集合中的每一目标网页标签对应的数据。2.根据权利要求1所述的方法,其特征在于,所述响应于针对所述目标网页的操作,确定所述目标网页中的目标网页标签集合,包括:捕获外接输入设备的移动轨迹;响应于所述移动轨迹,选中所述移动轨迹对应的网页标签边界;基于所述网页标签边界,确定所述目标网页中的目标网页标签集合。3.根据权利要求2所述的方法,其特征在于,所述基于所述网页标签边界,确定所述目标网页中的目标网页标签集合,包括:响应于针对所述网页标签边界对应的网页标签的第一预设操作,将所述网页标签确定为目标网页标签;确定所述目标网页中除所述目标网页标签外的其他网页标签与所述目标网页标签的相似度;将所述相似度大于预设的第一相似度阈值的其他网页标签与所述目标网页标签组成的集合,确定为所述目标网页中的目标网页标签集合。4.根据权利要求3所述的方法,其特征在于,所述确定所述目标网页中除所述目标网页标签外的其他网页标签与所述目标网页标签的相似度,包括:获取所述目标网页标签的第一标签内容和所述目标网页标签在所述目标网页中的第一结构信息;获取所述目标网页中,除所述目标网页标签以外的其他网页标签的第二标签内容和所述其他网页标签在所述目标网页中的第二结构信息;针对每一所述其他网页标签,确定所述第一标签内容与所述第二标签内容的第一相似度,以及所述第一结构信息与所述第二结构信息的第二相似度;根据所述第一相似度和所述第二相似度,确定所述目标网页中除所述目标网页标签外的其他网页标签与所述目标网页标签的相似度。5.根据权利要求3所述的方法,其特征在于,在所述响应于针对所述网页标签边界对应的网页标签的第一预设操作,将所述网页标签确定为所述目标网页标签之后,所述方法还包括:获取所述目标网页标签对应的目标数据,并通过第一对话框展示所述目标数据;响应于针对所述第一对话框中目标触控对象的第二预设操作,通过第二对话框展示所述目标数据,其中,每一目标数据对应一个输入框;针对每一目标数据对应的输入框,响应于接收到的对所述输入框的输入操作,获取所述输入框中的输入数据,并将所述输入数据作为该输入框对应的目标数据的类型参数;...

【专利技术属性】
技术研发人员:胡良军
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1