一种基于OCR技术的网络受保护指数数据的获取方法技术

技术编号:13999985 阅读:41 留言:0更新日期:2016-11-15 14:08
本发明专利技术涉及一种基于OCR技术的网络受保护指数数据的获取方法,本发明专利技术首先利用自动化测试工具,模拟指数数据显示之前用户在数据平台的一系列操作,如登录、输入搜索关键词、设置搜索时间等。然后利用模拟鼠标移动,进行曲线上值的动态显示和采集,最后,利用改进的OCR技术实现目标数据的数值获取。通过本发明专利技术所述方法获取的受保护数据,具有获取效率高、获取数据准确和可批量获取等特点,可以用于为舆情分析和数据挖掘提供了有效的数据支撑,为网络大数据获取方法提出了一种新思路,同时为商业推广、精准营销以及市场分析等提供了有价值的信息。具有重要的理论意义和广泛的应用价值。

【技术实现步骤摘要】

本专利技术涉及一种基于OCR技术的网络受保护指数数据的获取方法,属于网络通讯

技术介绍
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。OCR技术识别图像中字符的过程可以概括为图像预处理、字符特征提取、对比字体字典,这是OCR核心的三个过程。其中,字符特征提取最重要,该过程首先对要识别的字符序列进行行或字切分,从图像中分离出单个字符,然后,从单字符图像中提取统计特征和结构特征;接下来利用抽取出的字符特征,与已有的特征库即字体字典进行比对,选择匹配度最高的字符作为输出。Web上数据类型主要分为最常见的文本数据类型、图片类型和音视频流数据。传统网络爬虫爬取的数据的方法有两种:第一类方法是基于URL的目标站点加载技术的Web数据获取方法;第二类方法是基于开放平台SDK接口调用技术的Web数据获取方法。第一类方法以目标资源URL作为起点,访问URL站点的数据,这些URL站点通常不需要授权或登录即可看到目标数据。这些数据以文本数据居多,如HTML页面源代码、URL地址、字符数字序列等。而且传统Web数据大多是结构化数据,如HTML页面或XML数据通过标签元素组织内容;JSON数据类型由自定义的数组和对象构成;URL地址以万维网联盟的互联网标准RFC1738制定的规范来定位网络资源。爬取到数据后只需要做简单的处理就可以直接使用,比如对于HTML页面源代码,关键数据会包含在HTML标签中,可以使用XPath语言或CSS选择器即可定位到具体标签内容;对于URL地址数据,使用正则表达式可以提取URL地址的协议、主机地址、资源名、查询参数等信息。但是,网络受保护的数据的加载方式通常是动态延时加载,即只在需要显示的时候加载,第一类方法很难获取并识别具有受保护网络数据特点(权限验证,动态加载,图片格式数据)的目标数据。第二类Web数据的获取方法是基于网络开放平台提供的SDK,进行模拟应用开发,通过频繁调用数据的API接口进行数据的获取。该类方法的优点是获取的Web数据是结构化的数据,性能稳定,获取效率高。但是,第二类方法也存在一定的缺点:首先,对于获取的权限分级明显,如果没有获得较高的权限,调用接口的次数会大大降低,获取的效率也会大大降低。其次,获取的内容相对固定,缺少灵活性。第三,获取的数据格式以文本为主,大多数数据需要二次爬取。Google在维护的开源OCR引擎Tesseract-OCR支持对包括中文在内的100多种语言的识别。然而,经过多次利用Tesseract-OCR测试发现,在识别数字类图像的时候,失败的总是固定的几个数字,OCR识别失败举例如表1所示:表1中为Tesseract-OCR识别的识别率较高的失败的数字。表1正确值识别值原因1309813093行尾8识别为31221812213行尾8识别为3692738692788行中3识别为8772614?72614行首7无法识别86258786258?行尾7无法识别现有技术中还提出了一种基于曲线推算的受保护指数数据的获取技术,该技术主要是通过采集目标数据的曲线,而后进行图像预处理和曲线点的定位和数值的计算,实现该类数据的获取。但是该方法的结果准确度较低,具有一定的误差。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于OCR技术的网络受保护指数数据的获取方法;本专利技术包括:目标数据的加载,目标的数据图像的自动采集和采用OCR技术的获取网络受保护指数数据。本专利技术面向受保护网站指数数据(百度指数,360指数,腾讯视频指数等)的获取,本专利技术首先利用自动化测试工具,模拟指数数据显示之前用户在数据平台的一系列操作,如登录、输入搜索关键词、设置搜索时间等。然后利用模拟鼠标移动,进行曲线上值的动态显示和采集,最后,利用改进的OCR技术实现目标数据的数值获取。本专利技术通过OCR技术,更加准确的实现受保护指数数据的获取和识别,通过自动化测试技术,实现动态页面加载过程中,模拟点击或鼠标移动,实现目标数值数据的加载和图像采集。术语解释Cookie:指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密);移动步长step,是指鼠标单次移动的距离;日期总数days,是指开始日期与结束日期之间的总天数;图表元素element,是指指数数据的曲线图、折线图等。专利技术概述一种基于OCR技术的网络受保护指数数据的获取方法,该方法包括如下步骤:(1)目标数据网站半监督形式登录;(2)基于自动测试技术的目标数据定位与获取,实现目标数据的图像获取;(3)目标数据的图像的预处理,实现目标数据图像的去噪和识别前的数据准备;(4)基于改进的OCR(光学字符识别)技术,实现目标图像数据的识别;(5)对识别的目标数据进行结构化处理并通过推算方法进行校验;(6)完成目标数据的存储。经过上述方法获取的受保护数据,具有获取效率高、获取数据准确和可批量获取等特点,可以用于为舆情分析和数据挖掘提供了有效的数据支撑,为网络大数据获取方法提出了一种新思路,同时为商业推广、精准营销以及市场分析等提供了有价值的信息,具有重要的理论意义和广泛的应用价值。本专利技术的技术方案为:一种基于OCR技术的网络受保护指数数据的获取方法,具体步骤包括:(1)目标数据网站登录;(2)目标数据定位与获取:利用自动化测试工具Selenium Webdriver,模拟目标数据显示之前用户在数据平台的操作;例如,登录,输入搜索关键词,设置搜索时间等。加载目标数据的图像,并利用模拟鼠标移动的方法,对目标数据的图像中曲线上的数据值进行动态加载和采集存储;(3)目标数据预处理:对目标数据的图像进行预处理;由于指数数据获取方法中都是针对图像数据进行处理,图像的质量对最终结果的准确度至关重要。图像预处理的目的是提高关键数据在图像中的可识别度,降低其它无用信息对关键数据的干扰。由于网络受保护指数数据需要最终展示给用户,采用的字体都比较规范清晰,也不会在图像中加入过多噪音。所以,该部分图像预处理使用基本的二值化、缩放等处理即可满足要求。(4)目标数据识别与存储:利用改进的OCR技术进行目标数据识别与存储:a、自定义字体样本:针对识别容易失败的字符及非常用的字体,扩大切分框,使切分框完全包围识别容易失败的字符及非常用的字体,且不与识别容易失败的字符及非常用的字体的像素重合,识别容易失败的字符包括8、3、7、11;非常用的字体,例如,倾斜体、扭曲体、手写体等;通过自定义字体样本提高识别的准确度,由于字体样本用于切分字符,它记录着目标数据的图像中不同字符的位置、尺寸等信息。针对识别失败的字符,扩大其切分框,使切分框完全包围字符又不与字符像素重合,对多个识别失败的数据做重复操作,最终形成一类新的字体样本。b、采用步骤a自定义的字体样本对步骤(3)预处理后的目标数据的图像中要识别的字符序列进行行或字切分,分离出单个字符;c、对单个字符提取统计特征和结构特征;d、将步骤c提取出的字符的统计特征和结构特征,与已有的特征库即字体字典进行比对,选本文档来自技高网
...

【技术保护点】
一种基于OCR技术的网络受保护指数数据的获取方法,其特征在于,具体步骤包括:(1)目标数据网站登录;(2)目标数据定位与获取:利用自动化测试工具Selenium Webdriver,模拟目标数据显示之前用户在数据平台的操作;加载目标数据的图像,并利用模拟鼠标移动的方法,对目标数据的图像中曲线上的数据值进行动态加载和采集存储;(3)目标数据预处理:对目标数据的图像进行预处理;(4)目标数据识别与存储:利用改进的OCR技术进行目标数据识别与存储:a、自定义字体样本:针对识别容易失败的字符及非常用的字体,扩大切分框,使切分框完全包围识别容易失败的字符及非常用的字体,且不与识别容易失败的字符及非常用的字体的像素重合,识别容易失败的字符包括8、3、7、11;b、采用步骤a自定义的字体样本对步骤(3)预处理后的目标数据的图像中要识别的字符序列进行行或字切分,分离出单个字符;c、对单个字符提取统计特征和结构特征;d、将步骤c提取出的字符的统计特征和结构特征,与已有的特征库即字体字典进行比对,选择匹配度最高的字符进行输出;(5)对步骤(4)输出的字符进行校验。

【技术特征摘要】
1.一种基于OCR技术的网络受保护指数数据的获取方法,其特征在于,具体步骤包括:(1)目标数据网站登录;(2)目标数据定位与获取:利用自动化测试工具Selenium Webdriver,模拟目标数据显示之前用户在数据平台的操作;加载目标数据的图像,并利用模拟鼠标移动的方法,对目标数据的图像中曲线上的数据值进行动态加载和采集存储;(3)目标数据预处理:对目标数据的图像进行预处理;(4)目标数据识别与存储:利用改进的OCR技术进行目标数据识别与存储:a、自定义字体样本:针对识别容易失败的字符及非常用的字体,扩大切分框,使切分框完全包围识别容易失败的字符及非常用的字体,且不与识别容易失败的字符及非常用的字体的像素重合,识别容易失败的字符包括8、3、7、11;b、采用步骤a自定义的字体样本对步骤(3)预处理后的目标数据的图像中要识别的字符序列进行行或字切分,分离出单个字符;c、对单个字符提取统计特征和结构特征;d、将步骤c提取出的字符的统计特征和结构特征,与已有的特征库即字体字典进行比对,选择匹配度最高的字符进行输出;(5)对步骤(4)输出的字符进行校验。2.根据权利要求1所述的一种基于OCR技术的网络受保护指数数据的获取方法,其特征在于,所述步骤(2)中目标数据定位,具体步骤包括:S1、目标数据关键参数的计算和设定,包括:通过正则表达式在URL中进行识别,获取目标数据搜索开始时间和结束时间,计算出目标数据的日期总数days;根据目标数据的日期总数days和通过自动化测试工具Selenium Webdriver获取的图表元素element的宽度element.width,计算目标数据的移动步长step,即:step=Math.round(element.width/(days-1));Math.round()为四...

【专利技术属性】
技术研发人员:曾庆田王松松李超段华赵中英
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1