一种网页渲染方式的识别方法、系统及计算机设备技术方案

技术编号:38422713 阅读:18 留言:0更新日期:2023-08-07 11:22
本申请涉及一种网页渲染方式的识别方法、系统及计算机设备,属于通信技术领域,识别方法包括获取网页的页面数据;获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;获取页面数据中HTML代码字段占页面数据总字符的代码比例;根据页面数据中存在的关键字段和代码比例,生成网页渲染方式;若页面数据中存在的关键字段越多,则网页越可能是采用客户端渲染的方式进行渲染的,若页面数据中HTML代码字段的比例越小,则网页越可能是采用客户端渲染的方式进行渲染的,本申请具有便于对网页的渲染方式进行识别的效果。有便于对网页的渲染方式进行识别的效果。有便于对网页的渲染方式进行识别的效果。

【技术实现步骤摘要】
一种网页渲染方式的识别方法、系统及计算机设备


[0001]本专利技术涉及通信
,尤其是涉及一种网页渲染方式的识别方法、系统及计算机设备。

技术介绍

[0002]网页渲染是用于展现网页页面的控件,网页经过渲染后才会展示给客户端。常见的网页渲染方式有客户端渲染以及服务端渲染,服务端渲染是指在服务器上将客户端或通用应用程序渲染成HTML,客户端渲染是指直接在浏览器中渲染应用程序,通常使用文档对象模型。
[0003]目前,在需要提取网页中的信息时,服务端渲染的网页通常采用curl请求的方式进行提取,提取速度较快;对于客户端渲染方式渲染的网页,由于网页中的信息分散在各个框架模型中,采用curl请求的方式提取信息可能会出现网页中信息提取遗漏或提取不完整的情况出现,所以对于不同渲染方式的网页需要采用不同的提取方式,如何准确识别出网页的渲染方法,是目前亟待解决的问题。

技术实现思路

[0004]为了便于识别网页的渲染方式,本申请提供了一种网页渲染方式的识别方法、系统及计算机设备。
[0005]第一方面,本申请提供的一种网页本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页渲染方式的识别方法,其特征在于,包括:获取网页的页面数据;获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;获取页面数据中HTML代码字段占页面数据总字符的代码比例;根据页面数据中存在的关键字段和代码比例,生成网页渲染方式。2.根据权利要求1所述的识别方法,其特征在于:所述关键字段包括第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段;所述获取页面数据中存在的关键字段,具体包括:分别创建第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段的正则表达式;利用正则表达式,分别对页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段进行匹配;根据第三方框架字段的匹配结果、功能样式框架字段的匹配结果、框架类型标识字段的匹配结果以及自定义修改字段的匹配结果,得到页面数据中存在的关键字段。3.根据权利要求1所述的识别方法,其特征在于:所述根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,具体包括:计算页面数据中存在的每个关键字段的字段分值;根据预设代码比例,计算代码比例的比例分值;预设比例分值和每个关键字段的字段分值的权重;根据权重,对比例分值和所有的字段分值进行累加,得到客户端渲染匹配分值;根据匹配分值,得到网页的渲染方式。4.根据权利要求3所述的识别方法,其特征在于:...

【专利技术属性】
技术研发人员:荣佳乐赵武
申请(专利权)人:北京华顺信安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1