一种基于OCR技术的网络受保护指数数据的获取方法技术

技术编号：13999985 阅读：41 留言：0更新日期：2016-11-15 14:08

本发明专利技术涉及一种基于OCR技术的网络受保护指数数据的获取方法，本发明专利技术首先利用自动化测试工具，模拟指数数据显示之前用户在数据平台的一系列操作，如登录、输入搜索关键词、设置搜索时间等。然后利用模拟鼠标移动，进行曲线上值的动态显示和采集，最后，利用改进的OCR技术实现目标数据的数值获取。通过本发明专利技术所述方法获取的受保护数据，具有获取效率高、获取数据准确和可批量获取等特点，可以用于为舆情分析和数据挖掘提供了有效的数据支撑，为网络大数据获取方法提出了一种新思路，同时为商业推广、精准营销以及市场分析等提供了有价值的信息。具有重要的理论意义和广泛的应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于OCR技术的网络受保护指数数据的获取方法，属于网络通讯

技术介绍
OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。OCR技术识别图像中字符的过程可以概括为图像预处理、字符特征提取、对比字体字典，这是OCR核心的三个过程。其中，字符特征提取最重要，该过程首先对要识别的字符序列进行行或字切分，从图像中分离出单个字符，然后，从单字符图像中提取统计特征和结构特征；接下来利用抽取出的字符特征，与已有的特征库即字体字典进行比对，选择匹配度最高的字符作为输出。Web上数据类型主要分为最常见的文本数据类型、图片类型和音视频流数据。传统网络爬虫爬取的数据的方法有两种：第一类方法是基于URL的目标站点加载技术的Web数据获取方法；第二类方法是基于开放平台SDK接口调用技术的Web数据获取方法。第一类方法以目标资源URL作为起点，访问URL站点的数据，这些URL站点通常不需要授权或登录即可看到目标数据。这些数据以文本数据居多，如HTML页面源代码、URL地址、字符数字序列等。而且传统Web数据大多是结构化数据，如HTML页面或XML数据通过标签元素组织内容；JSON数据类型由自定义的数组和对象构成；URL地址以万维网联盟的互联网标准RFC1738制定的规范来定位网络资源。爬取到数据后只需要做简单的处理就可以直接使用，比如对于HTML页面源代码，关键数据会包...

【技术保护点】
一种基于OCR技术的网络受保护指数数据的获取方法，其特征在于，具体步骤包括：(1)目标数据网站登录；(2)目标数据定位与获取：利用自动化测试工具Selenium Webdriver，模拟目标数据显示之前用户在数据平台的操作；加载目标数据的图像，并利用模拟鼠标移动的方法，对目标数据的图像中曲线上的数据值进行动态加载和采集存储；(3)目标数据预处理：对目标数据的图像进行预处理；(4)目标数据识别与存储：利用改进的OCR技术进行目标数据识别与存储：a、自定义字体样本：针对识别容易失败的字符及非常用的字体，扩大切分框，使切分框完全包围识别容易失败的字符及非常用的字体，且不与识别容易失败的字符及非常用的字体的像素重合，识别容易失败的字符包括8、3、7、11；b、采用步骤a自定义的字体样本对步骤(3)预处理后的目标数据的图像中要识别的字符序列进行行或字切分，分离出单个字符；c、对单个字符提取统计特征和结构特征；d、将步骤c提取出的字符的统计特征和结构特征，与已有的特征库即字体字典进行比对，选择匹配度最高的字符进行输出；(5)对步骤(4)输出的字符进行校验。

【技术特征摘要】
1.一种基于OCR技术的网络受保护指数数据的获取方法，其特征在于，具体步骤包括：(1)目标数据网站登录；(2)目标数据定位与获取：利用自动化测试工具Selenium Webdriver，模拟目标数据显示之前用户在数据平台的操作；加载目标数据的图像，并利用模拟鼠标移动的方法，对目标数据的图像中曲线上的数据值进行动态加载和采集存储；(3)目标数据预处理：对目标数据的图像进行预处理；(4)目标数据识别与存储：利用改进的OCR技术进行目标数据识别与存储：a、自定义字体样本：针对识别容易失败的字符及非常用的字体，扩大切分框，使切分框完全包围识别容易失败的字符及非常用的字体，且不与识别容易失败的字符及非常用的字体的像素重合，识别容易失败的字符包括8、3、7、11；b、采用步骤a自定义的字体样本对步骤(3)预处理后的目标数据的图像中要识别的字符序列进行行或字切分，分离出单个字符；c、对单个字符提取统计特征和结构特征；d、将步骤c提取出的字符的统计特征和结构特征，与已有的特征库即字体字典进行比对，选择匹配度最高的字符进行输出；(5)对步骤(4)输出的字符进行校验。2.根据权利要求1所述的一种基于OCR技术的网络受保护指数数据的获取方法，其特征在于，所述步骤(2)中目标数据定位，具体步骤包括：S1、目标数据关键参数的计算和设定，包括：通过正则表达式在URL中进行识别，获取目标数据搜索开始时间和结束时间，计算出目标数据的日期总数days；根据目标数据的日期总数days和通过自动化测试工具Selenium Webdriver获取的图表元素element的宽度element.width，计算目标数据的移动步长step，即：step＝Math.round(element.width/(days-1))；Math.round()为四...

【专利技术属性】
技术研发人员：曾庆田，王松松，李超，段华，赵中英，
申请(专利权)人：山东科技大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人