一种支持高并发大数据量的数据抽取处理方法技术

技术编号:9007795 阅读:173 留言:0更新日期:2013-08-08 02:46
本发明专利技术涉及数据采集统计技术领域,特别涉及一种支持高并发大数据量的数据抽取处理方法。其通过灵活定义采集方案,由客户端软件定义采集SQL、采集频率定时采集数据,服务器组件提供安全登录、数据导入、业务逻辑处理触发,从而将海量数据稳定采集至企业数据库中,为企业决策分析提供数据源。

【技术实现步骤摘要】

本专利技术涉及数据采集统计
,特别涉及。
技术介绍
在企业决策中,对下游经销商中本企业产品进销存数据有着强烈地统计需求,如何从数量庞大的经销商处稳定地获取海量数据将成为问题关键,目前的采集方法都是独立的,其过程不但繁琐而且不够稳定。
技术实现思路
为了解决现有技术的问题,本专利技术提供了,通过灵活定义采集方案,由客户端软件定义采集SQL、采集频率定时采集数据,服务器组件提供安全登录、数据导入、业务逻辑处理触发,从而将海量数据稳定采集至企业数据库中,为企业决策分析提供数据源。本专利技术所采用的技术方案如下: ,其由客户端的数据采集和服务器端的数据处理的两部分方法构成,其中, A、客户端的数据采集的方法具体包括: B、从服务器端下载配置定义信息;C、根据下载的配置定义信息和本地数据源结合,定义出具体的采集结构化查询语言信息; D、同时启用采集判断线程、采集线程、数据上传线程和日志缓存线程; E、采集判断线程定时检查采集定义是否可触发采集,把需要执行的采集明细传递给采集线程进行后续执行; F、采集线程对每个采集明细信息逐个执行,数据抽取后压缩生成文件; G、数据上传线程定时检查是否存在新文件,检查到新文件后进行逐个文件上传;上传失败时,则继续下个文件上传,失败文件等待下次继续尝试上传;H、日志缓存提供高效机制,在各线程和日志文件之间起到访问缓冲,加快了各线程执行; 服务器端进行数据处理的方法具体包括: a、以网络服务接口对外提供服务,组件以视窗服务方式运行; b、服务器端组件启动客户端管理线程、文件传输管理线程、文件导入调度线程; c、客户端管理线程定时与数据库交互,读取客户端配置信息和保存客户端登录信息至数据库中;线程缓存客户端的各类信息为文件传输和导入调度提供信息快速访问,同时提供客户端登录验证功能; d、文件传输管理线程控制传输许可分配、回收和数据的接收;e、文件导入调度线程提供相同客户端同时只能导入一个文件、不同客户端文件可并发的控制,对于出错的文件导入需要提供容错再次导入机制。配置定义信息包括以下内容: (O定义目标对象:数据列名、字段类型、字段长度、字段说明、是否主键; (2 )定义采集对象:表结构信息(目标对象),和日、周、月不同采集周期所对应表名; (3)采集方案:所包含采集对象集合定义和后处理方案; (4)客户端配置:登录名、密码、采集方案。本专利技术提供的技术方案带来的有益效果是: 本专利技术通过灵活定义采集方案,由客户端定义采集SQL (结构化查询语言)信息、采集频率定时采集数据,服务器端提供安全登录、数据导入、业务逻辑处理触发,将海量数据稳定采集至企业数据库中,为企业决策分析提供数据源。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合具体实施例对本专利技术实施方式作进一步地详细描述。实施例一 下面给出客户端的数据采集和服务器端的数据处理的具体程序: 1、客户端: 1.1规则日志缓存类,提供日志缓存、定时保存日志至文件中: public class TableLogBuffer: ThreadTaskBase{ III定时执行日志保存protected override void TaskWorkFunc(){ lock (_lock){ //内存没有变动的话,不需要保存至文件中 if (!—ismodified) return; if (!Directory.Exists(LocalPath.LogPath)) Directory.CreateDirectory (LocalPath.LogPath); //获取格式信息的字节流 string strResult = Serializer.XmlSerialize (_logList); string strPath = LocalPath.LogPath + 〃Logs.xml〃; if (File.Exists(strPath)) File.Delete (strPath);FileStream fs = new FiIeStream(strPath, FileMode.0penOrCreatej FileAccess.Write);StreamWriter m_streamWriter = new StreamWriter (fs,权利要求1.,其由客户端的数据采集和服务器端的数据处理的两部分方法构成,其中, A、客户端的数据采集的方法具体包括: B、从服务器端下载配置定义信息; C、根据下载的配置定义信息和本地数据源结合,定义出具体的采集结构化查询语言信息; D、同时启用采集判断线程、采集线程、数据上传线程和日志缓存线程; E、采集判断线程定 时检查采集定义是否可触发采集,把需要执行的采集明细传递给采集线程进行后续执行; F、采集线程对每个采集明细信息逐个执行,数据抽取后压缩生成文件; G、数据上传线程定时检查是否存在新文件,检查到新文件后进行逐个文件上传;上传失败时,则继续下个文件上传,失败文件等待下次继续尝试上传; H、日志缓存提供高效机制,在各线程和日志文件之间起到访问缓冲,加快了各线程执行; 服务器端进行数据处理的方法具体包括: a、以网络服务接口对外提供服务,组件以视窗服务方式运行; b、服务器端组件启动客户端管理线程、文件传输管理线程、文件导入调度线程; C、客户端管理线程定时与数据库交互,读取客户端配置信息和保存客户端登录信息至数据库中;线程缓存客户端的各类信息为文件传输和导入调度提供信息快速访问,同时提供客户端登录验证功能; d、文件传输管理线程控制传输许可分配、回收和数据的接收; e、文件导入调度线程提供相同客户端同时只能导入一个文件、不同客户端文件可并发的控制,对于出错的文件导入需要提供容错再次导入机制。2.根据权利要求1所述的,其特征在于,所述的配置定义信息包括以下内容: (O定义目标对象:数据列名、字段类型、字段长度、字段说明、是否主键; (2)定义采集对象:表结构信息(目标对象),和日、周、月不同采集周期所对应表名; (3)采集方案:所包含采集对象集合定义和后处理方案; (4)客户端配置:登录名、密码、采集方案。全文摘要本专利技术涉及数据采集统计
,特别涉及。其通过灵活定义采集方案,由客户端软件定义采集SQL、采集频率定时采集数据,服务器组件提供安全登录、数据导入、业务逻辑处理触发,从而将海量数据稳定采集至企业数据库中,为企业决策分析提供数据源。文档编号G06F17/30GK103235807SQ20131013832公开日2013年8月7日 申请日期2013年4月19日 优先权日2013年4月19日专利技术者付传伟 申请人:浪潮集团山东通用软件有限公司本文档来自技高网
...

【技术保护点】
一种支持高并发大数据量的数据抽取处理方法,其由客户端的数据采集和服务器端的数据处理的两部分方法构成,其中,A、客户端的数据采集的方法具体包括:B、从服务器端下载配置定义信息;C、根据下载的配置定义信息和本地数据源结合,定义出具体的采集结构化查询语言信息;D、同时启用采集判断线程、采集线程、数据上传线程和日志缓存线程;E、采集判断线程定时检查采集定义是否可触发采集,把需要执行的采集明细传递给采集线程进行后续执行;F、采集线程对每个采集明细信息逐个执行,数据抽取后压缩生成文件;G、数据上传线程定时检查是否存在新文件,检查到新文件后进行逐个文件上传;上传失败时,则继续下个文件上传,失败文件等待下次继续尝试上传;H、日志缓存提供高效机制,在各线程和日志文件之间起到访问缓冲,加快了各线程执行;服务器端进行数据处理的方法具体包括:a、以网络服务接口对外提供服务,组件以视窗服务方式运行;b、服务器端组件启动客户端管理线程、文件传输管理线程、文件导入调度线程;c、客户端管理线程定时与数据库交互,读取客户端配置信息和保存客户端登录信息至数据库中;线程缓存客户端的各类信息为文件传输和导入调度提供信息快速访问,同时提供客户端登录验证功能;d、文件传输管理线程控制传输许可分配、回收和数据的接收;e、文件导入调度线程提供相同客户端同时只能导入一个文件、不同客户端文件可并发的控制,对于出错的文件导入需要提供容错再次导入机制。...

【技术特征摘要】

【专利技术属性】
技术研发人员:付传伟
申请(专利权)人:浪潮集团山东通用软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1