一种数据抓取方法及终端技术

技术编号:19263915 阅读:60 留言:0更新日期:2018-10-27 02:37
本发明专利技术公开了一种数据抓取方法及终端,将app的界面进行截屏操作,并保存截屏图片,然后将截屏图片与选取的数据模板图片进行信息比对,判断是否能在截屏图片中的对应坐标位置识别到数据标识,若否,则更新数据模板图片,返回执行信息比对步骤;若是,则对数据标识后面的文本区域进行检测和提取,获取文本区域内的文本数据。本发明专利技术可解决传统数据抓取技术对于app这样的封闭环境无能为力的问题,使数据可自动抓取的范围进行了扩展;通过数据模板图片定位所要抓取的文本数据在图片中的位置,快速定位待抓取数据的位置,避免对整个图片进行扫描,可大大提高数据抓取的效率。

Data grabbing method and terminal

The invention discloses a data capture method and a terminal, which captures the interface of the app, saves the captured picture, and then compares the captured picture with the selected data template picture to determine whether the corresponding coordinate position in the captured picture can be identified to the data mark, and if not, updates the data template picture. Slice, returns to perform the information comparison step; if so, the text area after the data identification is detected and extracted to obtain the text data in the text area. The invention can solve the problem that the traditional data grabbing technology can't do anything for the closed environment such as app, and expand the range of data grabbing automatically; locate the position of the text data to be grabbed in the picture through the data template picture, quickly locate the position of the data to be grabbed, and avoid scanning the whole picture. Tracing can greatly improve the efficiency of data grabbing.

【技术实现步骤摘要】
一种数据抓取方法及终端
本专利技术涉及数据抓取
,尤其涉及一种数据抓取方法及终端。
技术介绍
现在行业内的数据抓取技术基本都是针对网站或者移动端网站等开放环境的,其抓取的方式有两种,一种是利用网络传输协议,在数据传输过程中抓取数据包,对于已经加密的数据包则经过解密后获取所需要的数据;另一种是获取网页html代码,抓取网页代码中所需要的数据。这两种方式都只能用于开放环境的数据抓取,对于app这样的封闭环境来说,是无法通过上述方法获取其内部数据的。
技术实现思路
本专利技术所要解决的技术问题是:提供一种数据抓取方法及终端,能够解决封闭环境的数据无法获取的问题。为了解决上述技术问题,本专利技术采用的一种技术方案为:一种数据抓取方法,包括以下步骤:S1、选取数据模板图片,所述数据模板图片包含数据标识在数据模板图片中的坐标位置信息;S2、运行app,对app的界面进行截屏操作,并保存截屏图片;S3、将截屏图片与数据模板图片进行信息比对,判断是否能在截屏图片中的对应坐标位置识别到数据标识,若否,则更新数据模板图片,返回执行步骤S3;若是,则对数据标识后面的文本区域进行检测和提取,获取文本区域内本文档来自技高网...

【技术保护点】
1.一种数据抓取方法,其特征在于,包括以下步骤:S1、选取数据模板图片,所述数据模板图片包含数据标识在数据模板图片中的坐标位置信息;S2、运行app,对app的界面进行截屏操作,并保存截屏图片;S3、将截屏图片与数据模板图片进行信息比对,判断是否能在截屏图片中的对应坐标位置识别到数据标识,若否,则更新数据模板图片,返回执行步骤S3;若是,则对数据标识后面的文本区域进行检测和提取,获取文本区域内的文本数据。

【技术特征摘要】
1.一种数据抓取方法,其特征在于,包括以下步骤:S1、选取数据模板图片,所述数据模板图片包含数据标识在数据模板图片中的坐标位置信息;S2、运行app,对app的界面进行截屏操作,并保存截屏图片;S3、将截屏图片与数据模板图片进行信息比对,判断是否能在截屏图片中的对应坐标位置识别到数据标识,若否,则更新数据模板图片,返回执行步骤S3;若是,则对数据标识后面的文本区域进行检测和提取,获取文本区域内的文本数据。2.如权利要求1所述的数据抓取方法,其特征在于,所述步骤S3之后还包括步骤S4:对获取的文本数据进行结构化处理,并保存。3.如权利要求1所述的数据抓取方法,其特征在于,在所述步骤S3中,更新数据模板图片的具体操作为:根据app界面当前的布局重新制作与所述布局相对应的数据模板图片。4.如权利要求1所述的数据抓取方法,其特征在于,所述数据标识的数目为多个,且多个数据标识与数据库中结构化数据的多个数据字段一一对应。5.如权利要求1所述的数据抓取方法,其特征在于,在所述步骤S3中所述对数据标识所在的文本区域进行检测和提取,获取文本区域内的文本数据包括:通过radon变换方法或者hough变换方法对数据标识后面的文本区域进行检测;通过投影直方图在文本区域中分割出单行的文本图片,使用光学字符识别技术识别文本图片中的字符,提取文本数据。6.一种数据抓取终端,包括存储器、处理器以及存储在所述...

【专利技术属性】
技术研发人员:刘杨吕宜亮
申请(专利权)人:深圳市众信电子商务交易保障促进中心
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1