一种解决字体反爬的爬虫方法技术

技术编号:20160600 阅读:40 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种解决字体反爬的爬虫方法,包括以下步骤:获取数据源网站自定义图元数据库文件;对自定义图元数据库文件中图元数据标注标准唯一标识号;建立真字与图元数据标准唯一标识号的映射关系表;建立假字与图元数据标准唯一标识号的映射关系表;建立真假字映射关系表;反解析。本发明专利技术在解决字体反爬时具有持久性高、通用性强等优点,实现灵活获取和更新字体文件、灵活建立真假字映射关系、灵活的反解析假数据,保证最大限度的数据准确性。

【技术实现步骤摘要】
一种解决字体反爬的爬虫方法
本专利技术涉及网络
,特别是一种解决字体反爬的爬虫方法。
技术介绍
在爬虫开发过程中主要要解决的核心问题是突破数据源(主要是网站)的反爬技术,常见的反爬技术有IP访问限制、用户登录校验、前端数据动态加载等等,这些反爬技术由来已久,有现行的多种解决方案,但是字体反爬作为之前一种小众的反爬技术,逐渐在大的数据源网站开始流行使用,这种技术会导致爬虫程序获取的数据失去价值,而且目前还未有稳定可靠的解决方案。字体文件常见的有符合ttf、woff等协议规范的文件,他们大多是由一系列字符的ASCII和供字符显示的图元数据的对应关系组成,并且图元数据一般绘制完成后不会再变更。主流的字体反爬实现思路大体是采用前端的Css技术让固定的某些元素区域的文本数据采用事先定义好的自定义字体文件,这个字体文件区别于系统本身字体文件,它将系统本身字体文件中某个指向字符B(假字,图元数据显示为B)的ASCII指向了自定义字体文件中的字符A(真字,图元数据显示为A),所以当从后端传输数据B到前端时其实就是假的数据,只有使用自定义字体文件渲染以后,B对应ASCII找到自定义字体中的A,此本文档来自技高网...

【技术保护点】
1.一种解决字体反爬的爬虫方法,其特征在于,包括以下步骤:步骤S1、获取数据源网站自定义图元数据库文件:确定数据源网站采用了自定义字体,并确定哪些元素区域采用了自定义字体,抓包找出元素区域以及字体文件下载URL;步骤S2、对自定义图元数据库文件中图元数据标注标准唯一标识号;步骤S3、建立真字与图元数据标准唯一标识号的映射关系表;步骤S4、建立假字与图元数据标准唯一标识号的映射关系表;步骤S5、建立真假字映射关系表:获取一个新的自定义字体文件,根据步骤S3得到的真字与图元数据标准唯一标识号的映射关系以及步骤S4得到的假字与图元数据标准唯一标识号的映射关系,通过图元数据唯一标识号作为桥梁,即可建立...

【技术特征摘要】
1.一种解决字体反爬的爬虫方法,其特征在于,包括以下步骤:步骤S1、获取数据源网站自定义图元数据库文件:确定数据源网站采用了自定义字体,并确定哪些元素区域采用了自定义字体,抓包找出元素区域以及字体文件下载URL;步骤S2、对自定义图元数据库文件中图元数据标注标准唯一标识号;步骤S3、建立真字与图元数据标准唯一标识号的映射关系表;步骤S4、建立假字与图元数据标准唯一标识号的映射关系表;步骤S5、建立真假字映射关系表:获取一个新的自定义字体文件,根据步骤S3得到的真字与图元数据标准唯一标识号的映射关系以及步骤S4得到的假字与图元数据标准唯一标识号的映射关系,通过图元数据唯一标识号作为桥梁,即可建立真字和假字的映射关系表;步骤S6、反解析:将爬虫爬取到的进行过字体反爬的数据拆分为一个个字符后,一一传入步骤S5得到的真假字映射关系的处理接口,如果字符能够在映射关系中找到对应关系即进行转换,没有找到即维持原状,最后将转换好的字符拼接到一起,即为真实数据。2.根据权利要求1所述的解决字体反爬的爬虫方法,其特征在于,所述步骤S1具体如下...

【专利技术属性】
技术研发人员:陈思言黄元稳漆尧
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1