一种反爬虫方法和装置制造方法及图纸

技术编号:20224572 阅读:27 留言:0更新日期:2019-01-28 22:36
本申请公开了一种反爬虫方法和装置,所述方法包括:确定源超文本标记语言HTML网页;在所述源HTML网页中插入噪声标签,其中,所述噪声标签中包括噪声标识信息;在所述噪声标签中插入噪声数据;为所述噪声标签添加目标层叠样式表CSS样式,得到目标HTML网页,其中,所述目标CSS样式用于在进行网页展示时不显示所述噪声数据,使得在目标HTML网页被爬虫爬取时,爬虫爬取到的数据中包含噪声数据,而目标HTML网页在客户端中向用户展示时不会显示噪声数据,从而既可以使得爬虫爬取失去意义,又不影响用户的正常浏览,有效提高了网站安全性能。

【技术实现步骤摘要】
一种反爬虫方法和装置
本申请涉及信息安全
领域,尤其涉及一种反爬虫方法和设备。
技术介绍
网络爬虫(简称爬虫),是一种通过网页的链接地址寻找网页,并按照一定的规则,自动获取网页内容的程序。目前的爬虫技术已经很普遍,通过设定的规则,爬虫可以轻易地抓取网页中一些重要信息,例如,内容类网站上提供线上咨询服务的真实有价值的数据,造成网站信息泄漏,降低网站安全性能。
技术实现思路
本申请实施例提供一种反爬虫方法和装置,用以解决现有的爬虫爬取造成的网站安全性能较低的问题。本申请实施例提供了一种反爬虫方法,包括:确定源HTML网页;在所述源HTML网页中插入噪声标签,其中,所述噪声标签中包括噪声标识信息;在所述噪声标签中插入噪声数据;为所述噪声标签添加目标CSS样式,得到目标HTML网页,其中,所述目标CSS样式用于在进行网页展示时不显示所述噪声数据。可选地,为所述噪声标签添加目标CSS样式,包括:根据预设CSS样式库,为所述噪声标签添加所述目标CSS样式,其中,所述预设CSS样式库中包括多个所述目标CSS样式。可选地,根据预设CSS样式库,为所述噪声标签添加所述目标CSS样式,包括:将所述噪声标识信息替换为所述目标CSS样式的代码。可选地,根据预设CSS样式库,为所述噪声标签添加所述目标CSS样式,包括:将所述噪声标识信息替换为所述目标CSS样式的样式名;生成外联式CSS样式文件,其中,所述外联式CSS样式文件中包括所述目标CSS样式的代码。可选地,所述目标CSS样式包括下述至少一种:用于隐藏标签中数据的CSS样式;用于将标签中数据移出视图范围的CSS样式;用于将标签中数据不可见的CSS样式;用于将标签中数据隐藏在背景色中的CSS样式。可选地,所述噪声标签的类型与所述源HTML网页中标签的类型是相似的。本申请实施例还提供了一种反爬虫装置,包括:确定模块,用于确定源HTML网页;插入模块,用于在所述源HTML网页中插入噪声标签,其中,所述噪声标签中包括噪声标识信息;所述插入模块,还用于在所述噪声标签中插入噪声数据;样式添加模块,用于为所述噪声标签添加目标CSS样式,得到目标HTML网页,其中,所述目标CSS样式用于在进行网页展示时不显示所述噪声数据。可选地,所述样式添加模块具体用于:根据预设CSS样式库,为所述噪声标签添加所述目标CSS样式,其中,所述预设CSS样式库中包括多个所述目标CSS样式。可选地,所述样式添加模块进一步包括:第一替换单元,用于将所述噪声标识信息替换为所述目标CSS样式的代码。可选地,所述样式添加模块进一步包括:第二替换单元,用于将所述噪声标识信息替换为所述目标CSS样式的样式名;生成单元,用于生成外联式CSS样式文件,其中,所述外联式CSS样式文件中包括所述目标CSS样式的代码。可选地,所述目标CSS样式包括下述至少一种:用于隐藏标签中数据的CSS样式;用于将标签中数据移出视图范围的CSS样式;用于将标签中数据不可见的CSS样式;用于将标签中数据隐藏在背景色中的CSS样式。可选地,所述噪声标签的类型与所述源HTML网页中标签的类型是相似的。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:确定源HTML网页,并在源HTML网页中插入噪声标签,其中,噪声标签中包括噪声标识信息;在噪声标签中插入噪声数据;为噪声标签添加目标CSS样式,得到目标HTML网页,其中,目标CSS样式用于在进行网页展示时不显示噪声数据,使得在目标HTML网页被爬虫爬取时,爬虫爬取到的数据中包含噪声数据,而目标HTML网页在客户端中向用户展示时不会显示噪声数据,从而既可以使得爬虫爬取失去意义,又不影响用户的正常浏览,有效提高了网站安全性能。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种反爬虫方法的流程示意图;图2为本申请实施例提供的另一种反爬虫方法的流程示意图;图3为本专利技术实施例提供的一种反爬虫装置的结构示意图;图4为本专利技术实施例提供的一种反爬虫设备的结构示意图。具体实施方式实际应用中,内容类网站可以提供线上咨询服务,使得内容类网站中那些真实有价值的数据吸引了不少的爬虫“光顾”。爬虫对网站中网页内容的爬取,不仅会造成网站信息的泄露,还会降低网站性能,影响网站的正常运行。为了减少网站信息的泄露,确保有良好的搜索引擎优化(SEO,SearchEngineOptimization),同时使得用户对网站有良好的用户体验,网站需要识别并拒绝爬虫的访问。目前,常用的反爬虫手段有:人工识别爬虫、通过用户代理(User-Agent)信息识别爬虫、查看系统统计和日志识别爬虫等。但是,目前常用的反爬虫手段仍然无法有效避免爬虫对网页数据的爬取。为了实现本申请的目的,本申请实施例提供了一种反爬虫方法和装置,所述方法包括:确定源HTML网页;在源HTML网页中插入噪声标签,其中,噪声标签中包括噪声标识信息;在噪声标签中插入噪声数据;为噪声标签添加目标CSS样式,得到目标HTML网页,其中,目标CSS样式用于在进行网页展示时不显示噪声数据,使得在目标HTML网页被爬虫爬取时,爬虫爬取到的数据中包含噪声数据,而目标HTML网页在客户端中向用户展示时不会显示噪声数据,从而既可以使得爬虫爬取失去意义,又不影响用户的正常浏览,有效提高了网站安全性能。本申请实施例提供的反爬虫方法可以单独使用,也可以与现有技术中的反爬虫方法联合使用,这里不做具体限定。下面结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。实施例1图1为本申请实施例提供的一种反爬虫方法的流程示意图。所述方法可以如下所示。步骤102,确定源超文本标记语言(HTML,HyperTextMarkupLanguage)网页。其中,源HTML网页为网站工作人员正常编写得到的HTML网页。源HTML网页中包括多个标签,每个标签中又包括需要向用户展示的有效数据。例如,源HTML网页中包括:<span>免签的交易限额</span>。其中,<span></span>为源HTML网页中的标签,“免签的交易限额”为标签<span></span>中包括的需要向用户展示的文字。步骤104,在源HTML网页中插入噪声标签,其中,噪声标签中包括噪声标识信息。在源HTML网页中的任意位置或预设位置插入噪声标签,并在噪声标签中插入噪声标识信息。其中,噪声标识信息用于后续可以对插入的噪声标签进行识别。需要说明的是,插入的噪声标签的位置和数目可以根据实际情况确定,这里不做具体限定。例如,在源HTML网页中设置预设个数的噪声标签位置,并在每个噪声标签位置上插入噪声标本文档来自技高网...

【技术保护点】
1.一种反爬虫方法,其特征在于,包括:确定源超文本标记语言HTML网页;在所述源HTML网页中插入噪声标签,其中,所述噪声标签中包括噪声标识信息;在所述噪声标签中插入噪声数据;为所述噪声标签添加目标层叠样式表CSS样式,得到目标HTML网页,其中,所述目标CSS样式用于在进行网页展示时不显示所述噪声数据。

【技术特征摘要】
1.一种反爬虫方法,其特征在于,包括:确定源超文本标记语言HTML网页;在所述源HTML网页中插入噪声标签,其中,所述噪声标签中包括噪声标识信息;在所述噪声标签中插入噪声数据;为所述噪声标签添加目标层叠样式表CSS样式,得到目标HTML网页,其中,所述目标CSS样式用于在进行网页展示时不显示所述噪声数据。2.如权利要求1所述的方法,其特征在于,为所述噪声标签添加目标CSS样式,包括:根据预设CSS样式库,为所述噪声标签添加所述目标CSS样式,其中,所述预设CSS样式库中包括多个所述目标CSS样式。3.如权利要求2所述的方法,其特征在于,根据预设CSS样式库,为所述噪声标签添加所述目标CSS样式,包括:将所述噪声标识信息替换为所述目标CSS样式的代码。4.如权利要求2所述的方法,其特征在于,根据预设CSS样式库,为所述噪声标签添加所述目标CSS样式,包括:将所述噪声标识信息替换为所述目标CSS样式的样式名;生成外联式CSS样式文件,其中,所述外联式CSS样式文件中包括所述目标CSS样式的代码。5.如权利要求1-4任一项所述的方法,其特征在于,所述目标CSS样式包括下述至少一种:用于隐藏标签中数据的CSS样式;用于将标签中数据移出视图范围的CSS样式;用于将标签中数据不可见的CSS样式;用于将标签中数据隐藏在背景色中的CSS样式。6.如权利要求1所述的方法,其特征在于,所述噪声标签的类型与所述源HTML网页中标签的类型是相似的。7....

【专利技术属性】
技术研发人员:苏思洋李涛
申请(专利权)人:珠海天燕科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1