多源自增海量数据文件实时采集方法技术

技术编号：8682720 阅读：194 留言：0更新日期：2013-05-09 02:42

一种多源自增海量数据文件实时采集方法，采用多线程技术并行采集数据源上的自增数据文件，采用文件切片技术和文件续传技术对所述的自增数据文件按时间切片，每次采集自增数据文件的增量部分。根据数据生成周期、预估数据文件大小及业务需求设定采集时间间隔，按设定的采集时间间隔，以定期轮询的方式检查服务器数据源当前周期的数据文件，采用文件切片技术和文件续传技术采集增量数据，以小数据文件的形式存储到本地，并且记录当前时刻文件字节大小作为下次轮询采集的起始位置。本发明专利技术每次采集增量部分，实现多源自增海量数据文件实时采集，解决了现有技术中采集电信数据延迟时间长、实时性差、影响服务器负载和稳定性的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

:本专利技术涉及物理领域，尤其涉及计算机应用系统中海量数据采集技术，特别是一种。
技术介绍
:电信业务涉及到的数据量非常巨大。在电信大型应用系统中，一般有多个数据源同时提供海量实时自增数据文件，应用系统每天需要采集几十到上百GB的海量数据，如PCMD和ROP数据。这类数据以文件形式存储在多个服务器数据源上，每个数据源一般是一个固定的时间周期生成一个文件，如一小时生成一个数据文件或者一天生成一个数据文件，文件在周期内会实时自增，直到下一周期开始，对应的数据文件会自动创建并实时自增。如何确保第一时间将海量数据文件准确完整地采集到并提供给应用系统成为一个技术难题。现有技术是在一个数据文件完全写入并不再自增后采集入库，这就会带来两个弊端:一是数据延迟时间长，实时性差。上一周期的数据文件需要等到下一周期开始才能采集，这样对于上一周期初期的数据来说可能就会延迟一个周期才能采集，而且采集本身也会花去较长一段时间，大大降低了数据的实时性。二是服务器负载失衡，稳定性差。一次性采集入库海量的数据，服务器处理时间集中在较长一段时间内，一旦入库过程出现异常，回滚的代价很高，也会严重影响...

【技术保护点】
一种多源自增海量数据文件实时采集方法，包括从一个以上数目的服务器数据源上采集自增数据文件的过程，其特征在于：在所述的从一个以上数目的服务器数据源上采集自增数据文件的过程中，采用多线程技术并行采集一个以上数目的服务器数据源上的自增数据文件，采用文件切片技术和文件续传技术对所述的自增数据文件按时间切片，每次采集自增数据文件的增量部分。

【技术特征摘要】
1.一种多源自增海量数据文件实时采集方法，包括从一个以上数目的服务器数据源上采集自增数据文件的过程，其特征在于:在所述的从一个以上数目的服务器数据源上采集自增数据文件的过程中，采用多线程技术并行采集一个以上数目的服务器数据源上的自增数据文件，采用文件切片技术和文件续传技术对所述的自增数据文件按时间切片，每次采集自增数据文件的增量部分。2.按权利要求1所述的多源自增海量数据文件实时采集方法，其特征在于:所述的从一个以上数目的服务器数据源上采集自增数据文件的过程包括以下步骤: 步骤1，明确数据生成周期、命名规则和采集方式，并预估每个数据文件的大小，步骤2，根据数据生成周期、预估数据文件大小及业务需求设定采集时间间隔，步骤3，按设定的采集时间间隔，以定期轮询的方式检查服务器数据源当前周期的数据文件，采用文件切片技术和文件续传技术采集增量数据，并按步骤I中设定的命名规则以小数据文件的形式存储到本地，并且记录本次采集过程中当前时刻文件字节大小作为下次轮询采集的起始位置，第一次轮询中采集从O字节位置到第一次轮询时刻的数据文件字节位置的数据，步骤4，采集从上一次轮询中记录的字节位置到当前轮询时刻的数据文件字节位置的数据，循环读取，直到下一个周期数据文件生成，步骤5，在步骤4中所述的周期数据文件的生成时刻，进行最后一次轮询采集，步骤6，将采集到的文件按设定的命名规则以小数据文件存储到指定目录，并直接加载数据库或者备份至服务器，步骤7，对于N个服务器数据源，采用多线程技术，按照步骤3-步骤6...

【专利技术属性】
技术研发人员：王志海，麦菁，辛炜博，徐卸土，王智博，
申请(专利权)人：上海邮电设计咨询研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人