跨数据中心的数据传输处理方法及系统技术方案

技术编号:11079903 阅读:110 留言:0更新日期:2015-02-25 18:19
本发明专利技术公开一种跨数据中心的数据传输处理方法及系统,其中方法包括:数据产生层产生日志数据并传输至数据中转层;数据中转层在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,字典库中存储日志数据与标识的唯一对应关系;数据中转层将标识替换后的日志数据传输至数据处理层。进一步的,若数据中转层在字典库中未查找到日志数据的标识,则保留原日志数据并传输至数据处理层;数据处理层将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系,将更新后的字典库同步至数据中转层。本发明专利技术可以减少日志数据的传输量,节省传输带宽和传输耗时。

【技术实现步骤摘要】
跨数据中心的数据传输处理方法及系统
本专利技术涉及计算机及通信
,尤其涉及跨数据中心的数据传输处理方法及系统。
技术介绍
Web2.0是一个架构在知识上的环境,人与人之间交互而产生出的内容,经由在服务导向架构中的程序,在这个环境被发布、管理和使用。相比Webl.0,它更注重用户之间的交互和体验。用户是内容的创建者,同时也是使用者。目前Web2.0具有代表性的服务包括:电商网络、资讯类、社区化网络(SNS,如人人网)、微博、微信、来往、健康、滴滴打开等等。Web2.0注重用户交互,一条微博发表后,通过不断转发、评论后,有可能产生GB级别的日志数据,这无疑给日志预传输带来新的挑战。 图1为现有技术中日志传输架构图。如图1所示,数据从产生端传输到数据处理层的处理方式如下: 数据产生层产生用户访问日志,对原始日志进行GZ压缩后,以某种传输协议(比如FTP、HTTP等)传输给数据中转层;数据产生层可以由WEB服务器构成,数据中转层可以由数据中转服务器构成; 如:1386562882.666 14 XXX.XXX.XXX.XXX TCP_MEM_HIT/200 440 GEThttp://www.XXXXX.com/images/xxxxx.gif-NONE/-1mage/gif〃http://www.XXXXX.com/aaaa/440_176147XXX.htmMozilla/5.0 (Windows NT 6.1 ;W0W64)AppleffebKit/537.1(KHTML, like Gecko)Chrome/21.0.1180.89 Safari/537.1- 这是一条WEB端产生的完整的访问日志,WEB端产生后每5分钟的数据会生成一个.gz包(devicename_20140822.tar.gz),然后通过某种传输协议(比如FTP、HTTP等)上传到数据中转服务器。 数据中转服务器接收到每5分钟产生的GZ包文件后,对这些文件做汇总后(比如把相同设备上的多个文件做合并后上传:devicename(设备名)相同的多个日志文件合并为一个gz文件)上传到数据处理层(由某种分布式存储或计算集群节点构成)中做统计分析使用。 然而,现有技术中,由于数据产生层的WEB服务器产生的日志量非常庞大,给传输带来了很高的带宽成本。并且,日志量大则需要的耗时就会很长,日志收集的时效性就会很低。
技术实现思路
本专利技术实施例提供一种跨数据中心的数据传输处理方法,用以减少日志数据的传输量,节省传输带宽和传输耗时,该方法包括: 数据产生层产生日志数据,将日志数据传输至数据中转层; 数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系; 数据中转层将标识替换后的日志数据传输至数据处理层。 一个实施例中,若数据中转层在所述字典库中未查找到日志数据的标识,则保留原日志数据并传输至数据处理层; 数据处理层将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系; 数据处理层将更新后的字典库同步至数据中转层。 一个实施例中,数据处理层通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系: 对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比; 若字典库中不存在该哈希值,则将该日志数据补充至字典库中; 取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。 一个实施例中,数据处理层建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储; 数据中转层对包含长字符串信息的日志数据进行标识替换时,从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信肩、O 一个实施例中,数据处理层建立的字典库中包括组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。 本专利技术实施例还提供一种跨数据中心的数据传输处理系统,用以减少日志数据的传输量,节省传输带宽和传输耗时,该系统包括: 数据产生层设备、数据中转层设备和数据处理层设备;其中: 数据产生层设备,用于产生日志数据,将日志数据传输至数据中转层设备; 数据中转层设备,用于在接收到日志数据后,在从数据处理层设备获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;将标识替换后的日志数据传输至数据处理层设备; 数据处理层设备,用于提供所述字典库,接收标识替换后的日志数据。 一个实施例中,数据中转层设备还用于在所述字典库中未查找到日志数据的标识时,保留原日志数据并传输至数据处理层设备; 数据处理层设备还用于将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系;将更新后的字典库同步至数据中转层设备。 一个实施例中,数据处理层设备具体用于通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系: 对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比; 若字典库中不存在该哈希值,则将该日志数据补充至字典库中; 取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。 一个实施例中,数据处理层设备具体用于建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储; 数据中转层设备具体用于对包含长字符串信息的日志数据进行标识替换时,从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信息。 一个实施例中,数据处理层具体用于:建立组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。 本专利技术实施例中,数据产生层产生日志数据,将日志数据传输至数据中转层;数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;数据中转层将标识替换后的日志数据传输至数据处理层;从而通过对日志数据进行标识替换的方式减少了日志数据的传输量,节省了传输带宽和传输耗时。 【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中: 图1为现有技术中日志传输架构图; 图2为本专利技术实施例中跨数据中心的数据传输处理方法的流程图; 图3为本专利技术实施例中字典库同步环路示意图; 图4为本专利技术实施例中日志数据标识替换及传输流程图; 图5为本专利技术实施例中跨数据中心的数据传输处理方法的具体实例图; 图6为本专利技术实施例中字典库生成样例示意图; 图7为本专利技术实施例中跨数据中心的数据传输处理系统的示意图。 【具体实施方式】 为使本专利技术实施例的目的、技术方案和优点更加清楚明白,本文档来自技高网
...

【技术保护点】
一种跨数据中心的数据传输处理方法,其特征在于,包括:数据产生层产生日志数据,将日志数据传输至数据中转层;数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;数据中转层将标识替换后的日志数据传输至数据处理层。

【技术特征摘要】
1.一种跨数据中心的数据传输处理方法,其特征在于,包括: 数据产生层产生日志数据,将日志数据传输至数据中转层; 数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系; 数据中转层将标识替换后的日志数据传输至数据处理层。2.如权利要求1所述的方法,其特征在于,若数据中转层在所述字典库中未查找到日志数据的标识,则保留原日志数据并传输至数据处理层; 数据处理层将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系; 数据处理层将更新后的字典库同步至数据中转层。3.如权利要求1或2所述的方法,其特征在于,数据处理层通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系: 对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比; 若字典库中不存在该哈希值,则将该日志数据补充至字典库中; 取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。4.如权利要求1或2所述的方法,其特征在于,数据处理层建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储; 数据中转层对包含长字符串信息的日志数据进行标识替换时,从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信息。5.如权利要求1或2所述的方法,其特征在于,数据处理层建立的字典库中包括组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。6.一种跨数据中心的数据传输处理系统,其特征在于,包括: 数据产生层设备、数据中转层设备和数据...

【专利技术属性】
技术研发人员:秦刚唐玉芳柳杨江舟孔祥鹏张红意
申请(专利权)人:北京数迅科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1