一种数据爬取方法及装置制造方法及图纸

技术编号：24456504 阅读：28 留言：0更新日期：2020-06-10 15:42

一种数据爬取方法及装置，包括如下步骤：爬取数据；从爬取到的数据中找到并定位错误数据的位置以及定位错误数据对应的代码位置并找到加密代码；从加密代码得到密钥并结合错误数据对应的代码进行数据修正，得到经修正之后的正确数据。本申请通过对数据对应出处的代码进行分析得到其原始数据，并通过对错误数据的来源进行代码分析得到密钥，继而得出正确数据。

A data crawling method and device

A data crawling method and device include the following steps: crawling data; finding and locating the wrong data position from the crawling data and locating the code position corresponding to the wrong data and finding the encrypted code; obtaining the key from the encrypted code and correcting the data in combination with the code corresponding to the wrong data to obtain the corrected correct data. The application obtains the original data by analyzing the code corresponding to the source of the data, and obtains the key by analyzing the source of the error data, and then obtains the correct data.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据爬取方法及装置
本申请涉及一种数据爬取方法及装置。
技术介绍
网络爬虫(又称为网页蜘蛛，网络机器人)，是一种按照一定的规则，自动地抓取网络中信息的程序或者脚本。现在有很多网站为了防止自身的响应速度减慢以及资源占用的问题，会杜绝一些爬虫获取信息。可以直接通过请求屏蔽的方式来达到该种目的，但是有时候由于并不希望完全屏蔽，只是希望部分关键信息不被爬取，此时可以采用关键信息图片化的方式，但是图片化的方式相对较为容易通过OCR的方式进行破解，于是出现了一些通过加密的方式来避免重要数据被爬取的方法，此种方法的出现大大的降低了数据爬取的工作效率以及准确率。
技术实现思路
为了解决上述问题，本申请一方面提供了一种数据爬取方法，包括如下步骤：爬取数据；从爬取到的数据中找到并定位错误数据的位置以及定位错误数据对应的代码位置并找到加密代码；从加密代码得到密钥并结合错误数据对应的代码进行数据修正，得到经修正之后的正确数据。本申请通过对数据对应出处的代码进行分析得到其原始数据，并通过对错误数据的来源进行代码分析得到...

【技术保护点】
1.一种数据爬取方法，其特征在于：包括如下步骤：/n爬取数据；/n从爬取到的数据中找到并定位错误数据的位置以及定位错误数据对应的代码位置并找到加密代码；/n从加密代码得到密钥并结合错误数据对应的代码进行数据修正，得到经修正之后的正确数据。/n

【技术特征摘要】
1.一种数据爬取方法，其特征在于：包括如下步骤：
爬取数据；
从爬取到的数据中找到并定位错误数据的位置以及定位错误数据对应的代码位置并找到加密代码；
从加密代码得到密钥并结合错误数据对应的代码进行数据修正，得到经修正之后的正确数据。

2.根据权利要求1所述的一种数据爬取方法，其特征在于：所述加密代码为前端代码。

3.根据权利要求1所述的一种数据爬取方法，其特征在于：定位错误数据的方法按照如下方式进行：爬取数据过程中定位数据的前端代码，对于具有前端代码的数据进行定位。

4.根据权利要求3所述的一种数据爬取方法，其特征在于：具有前端代码的数据为错误数据。

5.根据权利要求1所述的一种数据爬取方法，其特征在于：所述密钥为爬取到数据的正确排列方式。

6.根据权利要求5所述的一种...

【专利技术属性】
技术研发人员：钟琴隆，杜志诚，杜明本，于文才，马强，刘霞，王冬冬，李春勇，
申请(专利权)人：山东旗帜信息有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人