页面解析方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:34014445 阅读:24 留言:0更新日期:2022-07-02 15:24
本公开涉及一种页面解析方法、装置、计算机可读介质及电子设备,该方法包括:获取采集的页面数据,调用数据库中的解析模板对页面数据进行解析,得到解析结果,解析模板的确定方式包括:通过前端提供的界面,配置与统一资源定位符对应的解析模板,每个解析模板对应一种解析规则,解析模板中包括解析结果返回的格式,通过前端提供的界面校验解析模板,将校验通过的解析模板转换为指定格式并存储至数据库中,指定格式包括字符串格式。能够为各个不同的网站提供对应的解析模板,根据解析模板中的解析规则对不同的网站的页面进行解析,能够集中、统一管理不同网站的大量、繁杂的页面数据。据。据。

【技术实现步骤摘要】
页面解析方法、装置、计算机可读介质及电子设备


[0001]本公开涉及数据解析领域,具体地,涉及一种页面解析方法、装置、计算机可读介质及计算机设备。

技术介绍

[0002]互联网行业迅猛发展,在现行的大数据时代,各种信息每年以指数级增长,数据已经成为必不可少的部分。日前各大网站的结构多种多样,会产生大量各异且繁杂的数据解析抽取规则。如何方便、统一管理这些数据成为目前待解决问题之一。

技术实现思路

[0003]本公开的目的是提供一种页面解析方法、装置、计算机可读介质及计算机设备,用以解决页面解析的问题。
[0004]第一方面,本公开提供一种页面解析方法,包括:获取采集的页面数据;
[0005]调用数据库中的解析模板对所述页面数据进行解析,得到解析结果;其中,所述解析模板的确定方式包括:通过前端提供的界面,配置与统一资源定位符对应的解析模板;每个所述解析模板对应一种解析规则,所述解析模板中包括解析结果返回的格式;通过所述前端提供的界面校验所述解析模板;将校验通过的所述解析模板转换为指定格式并存储至数据库中,所述指定格式包括字符串格式。
[0006]可选地,所述通过前端提供的界面,配置与统一资源定位符对应的解析模板的步骤包括:按照所述页面数据的所述统一资源定位符配置对应的解析模板;或按照所述页面数据的字段配置对应的解析模板。
[0007]可选地,所述通过前端提供的界面校验所述解析模板的步骤包括:根据所述统一资源定位符及对应的解析模板,下载所述统一资源定位符对应的页面;解析所述对应的页面得到第一解析结果;在所述前端提供的界面展示所述第一解析结果;基于接收到的用户判断结果得到所述第一解析结果的校验结果;所述校验结果包括通过校验或未通过校验。
[0008]可选地,所述通过前端提供的界面校验所述解析模板的步骤包括:通过本地调试接口导入python包;基于所述python包中提供的方法,获取所述统一资源定位符对应的页面;将所述对应的页面导入本地解析模板进行解析,得到第二解析结果;在所述前端提供的界面展示所述第二解析结果;基于用户判断得到所述第二解析结果的校验结果;所述校验结果包括通过校验或未通过校验。
[0009]可选地,所述调用数据库中的解析模板对所述页面数据进行解析,得到解析结果的步骤包括:提取所述页面数据的统一资源定位符;从数据库中获取所述页面数据的统一资源定位符对应的解析模板;将所述对应的解析模板注册到内存中;调用内存中的所述对应的解析模板对所述页面数据进行解析,得到所述解析结果。
[0010]可选地,所述调用数据库中的解析模板对所述页面数据进行解析,得到解析结果的步骤之后包括:当所述解析结果中存在回调字段时,将所述解析结果放入下载器中继续
下载,直到下载完全部的所述页面数据,并存储所述解析结果;当所述解析结果中不存在回调字段时,存储所述解析结果。
[0011]可选地,所述存储所述解析结果的步骤之后包括:统计每一个所述统一资源定位符在预定时间段内的所述解析结果;所述解析结果包括解析成功和解析失败;根据所述解析成功的次数和所述解析失败的次数判断对应的解析模板是否异常。
[0012]第二方面,本公开提供一种页面解析装置,包括:获取模块,用于获取采集的页面数据;解析模块,用于调用数据库中的解析模板对所述页面数据进行解析,得到解析结果;配置模块,用于通过前端提供的界面,配置与统一资源定位符对应的解析模板;每个所述解析模板对应一种解析规则,所述解析模板中包括解析结果返回的格式;校验模块,用于通过所述前端提供的界面校验所述解析模板;存储模块,用于将校验通过的所述解析模板转换为指定格式并存储至数据库中,所述指定格式包括字符串格式。
[0013]第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理装置执行时实现前述的页面解析方法的步骤。
[0014]第四方面,本公开提供一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现前述的页面解析方法的步骤。
[0015]通过上述技术方案,获取采集的页面数据,调用数据库中的解析模板对页面数据进行解析,得到解析结果,解析模板的确定方式包括:通过前端提供的界面,配置与统一资源定位符对应的解析模板,每个解析模板对应一种解析规则,解析模板中包括解析结果返回的格式,通过前端提供的界面校验解析模板,将校验通过的解析模板转换为指定格式并存储至数据库中,指定格式包括字符串格式。能够为各个不同的网站提供对应的解析模板,根据解析模板中的解析规则对不同的网站的页面进行解析,能够集中、统一管理不同网站的大量、繁杂的页面数据。
[0016]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0017]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
[0018]图1是本公开一个示例性实施例提供的计算机系统的结构示意图。
[0019]图2是本公开一个示例性实施例提供的页面解析方法的流程图。
[0020]图3是本公开一个示例性实施例示出的步骤S102的子步骤的流程图。
[0021]图4是本公开一个示例性实施例示出的一种页面解析装置框图。
[0022]图5是本公开一个示例性实施例示出的一种电子设备的框图。
[0023]图6是本公开一个示例性实施例示出的另一种电子设备的框图。
[0024]附图标记说明
[0025]120

终端;140

服务器;20

页面解析装置;201

获取模块;203

解析模块;205

配置模块;207

校验模块;209

存储模块;400

电子设备;401

处理器;402

存储器;403

多媒体组件;404

输入/输出(I/O)接口;405

通信组件;500

电子设备;522

处理器;532

存储器;526

电源组件;550

通信组件;558

输入/输出(I/O)接口。
具体实施方式
[0026]以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
[0027]下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种页面解析方法,其特征在于,包括:获取采集的页面数据;调用数据库中的解析模板对所述页面数据进行解析,得到解析结果;其中,所述解析模板的确定方式包括:通过前端提供的界面,配置与统一资源定位符对应的解析模板;每个所述解析模板对应一种解析规则,所述解析模板中包括解析结果返回的格式;通过所述前端提供的界面校验所述解析模板;将校验通过的所述解析模板转换为指定格式并存储至数据库中,所述指定格式包括字符串格式。2.根据权利要求1所述的方法,其特征在于,所述通过前端提供的界面,配置与统一资源定位符对应的解析模板的步骤包括:按照所述页面数据的所述统一资源定位符配置对应的解析模板;或按照所述页面数据的字段配置对应的解析模板。3.根据权利要求1所述的方法,其特征在于,所述通过前端提供的界面校验所述解析模板的步骤包括:根据所述统一资源定位符及对应的解析模板,下载所述统一资源定位符对应的页面;解析所述对应的页面得到第一解析结果;在所述前端提供的界面展示所述第一解析结果;基于接收到的用户判断结果得到所述第一解析结果的校验结果;所述校验结果包括通过校验或未通过校验。4.根据权利要求1所述的方法,其特征在于,所述通过前端提供的界面校验所述解析模板的步骤包括:通过本地调试接口导入python包;基于所述python包中提供的方法,获取所述统一资源定位符对应的页面;将所述对应的页面导入本地解析模板进行解析,得到第二解析结果;在所述前端提供的界面展示所述第二解析结果;基于用户判断得到所述第二解析结果的校验结果;所述校验结果包括通过校验或未通过校验。5.根据权利要求1所述的方法,其特征在于,所述调用数据库中的解析模板对所述页面数据进行解析,得到解析结果的步骤包括:提取所述页面数据的统一资源定位符;从数据库中获取...

【专利技术属性】
技术研发人员:赵智博
申请(专利权)人:北京金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1