页面类型甄别装置、方法及可读存储介质制造方法及图纸

技术编号:23764883 阅读:21 留言:0更新日期:2020-04-11 19:18
一种页面类型甄别方法、装置及计算机可读存储介质,所述方法包括:对目标URL进行静态抓取得到第一页面;对所述目标URL进行动态抓取得到第二页面;移除所述第一页面及所述第二页面中所包含的噪声内容;计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;判断所述页面相似度是否大于预设相似度;若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。本发明专利技术可以自动甄别URL对应的页面类型是静态页面还是动态页面。

Page type screening device, method and readable storage medium

【技术实现步骤摘要】
页面类型甄别装置、方法及可读存储介质
本专利技术涉及网页处理
,尤其涉及一种页面类型甄别装置、方法及计算机可读存储介质。
技术介绍
网页页面有静态页面和动态页面之分,爬虫系统对不同的页面类型会采取不同的抓取方式。比如,若URL对应的是静态页面,则可以直接解析该请求URL后响应的HTML。若URL对应的是动态页面,由于动态网页的数据采用异步加载,即站点服务器初次响应的数据仅仅是页面结构框架和异步执行的代码,加载完毕后,再次请求服务器拿到数据,通过JavaScript操作Dom组合成完整页面。爬虫系统需通过模拟动态网页的JS行为来获得数据,比如利用前端渲染支持库(带有JS引擎)进行动态页面爬取。在实际web网站中,两种页面经常是共存的。为了提高爬取效率,如何标识出当前URL对应的页面是属于哪一种页面类型,是亟待解决的问题。
技术实现思路
有鉴于此,有必要提供一种页面类型甄别装置、方法及计算机可读存储介质,可以自动甄别URL对应的页面类型是静态页面还是动态页面。本专利技术一实施方式提供一种页面类型甄别方法,所述方法包括:对目标URL进行静态抓取得到第一页面;对所述目标URL进行动态抓取得到第二页面;移除所述第一页面及所述第二页面中所包含的噪声内容;计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;判断所述页面相似度是否大于预设相似度;若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。优选地,所述噪声内容至少包括以下的一种或多种:导航条、广告条、超链接、网站底部。优选地,所述计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度的步骤包括:对经过噪声移除处理的第一页面及第二页面进行页面分解,以分别构建第一正文结构树及第二正文结构树;提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,其中所述自然段为正文结构树的底层节点;基于所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率;及根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。优选地,所述对经过噪声移除处理的第一页面及第二页面进行页面分解的步骤包括:对经过噪声移除处理的第一页面及第二页面按照预设的标签顺序进行逐层分解,直至分解至段落或纯文本。优选地,所述提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串的步骤包括:提取所述自然段中的句子的首尾字符或汉字作为所述句子的特征码;及基于所述自然段中的所有句子的特征码构建所述自然段的特征串。优选地,所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤包括:利用布隆过滤器对所述第一正文结构树的第一自然段的特征串的每一特征码进行转换,得到多个第一比特串;利用所述布隆过滤器对所述第二正文结构树的第二自然段的特征串的每一特征码进行转换,得到多个第二比特串,其中所述第一自然段与所述第二自然段为同层级的自然段;统计所述第一比特串与所述第二比特串的相同个数;及基于统计得到的相同个数计算得到所述特征串重合率。优选地,所述第一正文结构树中的每一自然段及所述第二正文结构树中的每一自然段按照预先权重定义规则定义有对应的权重值,所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤之后还包括:基于计算得到的特征串重合率及该对同层级自然段的权重值计算得到该对同层级自然段的加权特征串重合率。优选地,所述根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度的步骤包括:根据计算得到的所有加权特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。本专利技术一实施方式提供一种基于隐私保护的页面类型甄别装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现上述页面类型甄别方法的步骤。本专利技术一实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现上述的页面类型甄别方法的步骤。与现有技术相比,上述页面类型甄别装置、方法及计算机可读存储介质,可以实现自动甄别URL对应的页面类型是静态页面还是动态页面,进而可以提高网页爬虫效率。附图说明图1是本专利技术一实施方式的页面类型甄别装置的功能模块图。图2是本专利技术一实施方式的页面类型甄别程序的功能模块图。图3是本专利技术一实施方式的第一正文结构树的示意图。图4是本专利技术一实施方式的页面类型甄别方法的流程图。主要元件符号说明存储器10处理器20页面类型甄别程序30第一抓取模块101第二抓取模块102移除模块103计算模块104判断模块105标记模块106页面类型甄别装置100如下具体实施方式将结合上述附图进一步说明本专利技术。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。请参阅图1,为本专利技术页面类型甄别装置较佳实施例的示意图。页面类型甄别装置100可以包括存储器10、处理器20以及存储在所述存储器10中并可在所述处理器20上运行的页面类型甄别程序30。所述处理器20执行所述页面类型甄别程序30时实现页面类型甄别方法实施例中的步骤,例如图4所示的步骤S400~S412。或者,所述处理器20执行所述页面类型甄别程序30时实现图2中各模块的功能,例如模块101~106。所述页本文档来自技高网...

【技术保护点】
1.一种页面类型甄别方法,其特征在于,所述方法包括:/n对目标URL进行静态抓取得到第一页面;/n对所述目标URL进行动态抓取得到第二页面;/n移除所述第一页面及所述第二页面中所包含的噪声内容;/n计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;/n判断所述页面相似度是否大于预设相似度;/n若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及/n若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。/n

【技术特征摘要】
1.一种页面类型甄别方法,其特征在于,所述方法包括:
对目标URL进行静态抓取得到第一页面;
对所述目标URL进行动态抓取得到第二页面;
移除所述第一页面及所述第二页面中所包含的噪声内容;
计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;
判断所述页面相似度是否大于预设相似度;
若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及
若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。


2.如权利要求1所述的方法,其特征在于,所述噪声内容至少包括以下的一种或多种:导航条、广告条、超链接、网站底部。


3.如权利要求1所述的方法,其特征在于,所述计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度的步骤包括:
对经过噪声移除处理的第一页面及第二页面进行页面分解,以分别构建第一正文结构树及第二正文结构树;
提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,其中所述自然段为正文结构树的底层节点;
基于所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率;及
根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。


4.如权利要求3所述的方法,其特征在于,所述对经过噪声移除处理的第一页面及第二页面进行页面分解的步骤包括:
对经过噪声移除处理的第一页面及第二页面按照预设的标签顺序进行逐层分解,直至分解至段落或纯文本。


5.如权利要求3所述的方法,其特征在于,所述提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串的步骤包括:
...

【专利技术属性】
技术研发人员:吴良顺
申请(专利权)人:卓尔智联武汉研究院有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1