一种文本信息的反爬虫方法、装置和设备制造方法及图纸

技术编号:43097534 阅读:20 留言:0更新日期:2024-10-26 09:42
本发明专利技术公开了一种文本信息的反爬虫方法、装置和设备,获取显示页面中的文本信息,并分割得到待处理的文本单元;根据预设的关键信息点识别规则,识别所述文本单元中的字符的关键信息点;将所述关键信息点按照位置关系剪裁出来并形成第一文本单元,将剪裁后的文本单元形成第二文本单元;将所述第一文本单元和所述第二文本单元分别拓印在两张图层上,并记录所述第一文本单元和所述第二文本单元在所述两张图层上的起始点的坐标值;其中,所述两张图层的尺寸大于等于所述文本单元的尺寸;根据所述两张图层上的起始点的坐标值的对应关系,将所述两张图层在所述显示页面上进行重叠显示。采用本发明专利技术,能提高文本信息的安全性,避免文本信息被爬虫的情况。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种文本信息的反爬虫方法、装置和设备


技术介绍

1、当前网络爬虫层出不穷,为了避免网站上面的敏感信息或者关键信息被网络爬虫直接识别抓取走,公司投入大量财力物力产生的高价值数据很可能被不法爬虫轻易获取。现有的反爬虫手段包括:将对应信息进行标注,再进行顺序打乱;或将信息字符对应的字符编码进行重新映射,从而隐藏字符真实含义等。

2、然而,对于上述第一种方案,因为可以获取字符的原始信息,就算打乱顺序过后也可以利用算法拿到大部分关键信息和敏感信息,安全性相对较低。第二种方案属于爬虫不能拿到对应字符编码,识别字符空缺,但可以直接识别字体样式达到获取信息的目的,安全性也不高。因此,如何提高网站的页面信息的安全性,是目前亟待解决的技术问题。


技术实现思路

1、本专利技术实施例的目的是提供一种文本信息的反爬虫方法、装置和设备,其能够有效提高文本信息的安全性,避免文本信息被爬虫的情况。

2、为实现上述目的,本专利技术实施例提供了一种文本信息的反爬虫方法,包括:

本文档来自技高网...

【技术保护点】

1.一种文本信息的反爬虫方法,其特征在于,包括:

2.如权利要求1所述的文本信息的反爬虫方法,其特征在于,所述关键信息点为字符交叉点。

3.如权利要求2所述的文本反爬虫方法,其特征在于,所述根据预设的关键信息点识别规则,识别所述文本单元中的字符的关键信息点,包括:

4.如权利要求1所述的文本信息的反爬虫方法,其特征在于,将所述第一文本单元和所述第二文本单元分别拓印在两张图层上,并记录所述第一文本单元和所述第二文本单元在所述两张图层上的起始点的坐标值,包括:

5.如权利要求4所述的文本信息的反爬虫方法,其特征在于,所述生成随机大小的两张图层,...

【技术特征摘要】

1.一种文本信息的反爬虫方法,其特征在于,包括:

2.如权利要求1所述的文本信息的反爬虫方法,其特征在于,所述关键信息点为字符交叉点。

3.如权利要求2所述的文本反爬虫方法,其特征在于,所述根据预设的关键信息点识别规则,识别所述文本单元中的字符的关键信息点,包括:

4.如权利要求1所述的文本信息的反爬虫方法,其特征在于,将所述第一文本单元和所述第二文本单元分别拓印在两张图层上,并记录所述第一文本单元和所述第二文本单元在所述两张图层上的起始点的坐标值,包括:

5.如权利要求4所述的文本信息的反爬虫方法,其特征在于,所述生成随机大小的两张图层,作为第一图层和第二图层,包括:

6.如权利要求4所述的文本信息的反爬虫方法,其特征在于,所述在所述第一图层上和所述第二图层上分别随机确定一个起...

【专利技术属性】
技术研发人员:叶元鹏张飞
申请(专利权)人:中移物联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1