一种基于消息队列的分布式数据实时去重方法技术

技术编号:12567251 阅读:270 留言:0更新日期:2015-12-23 10:39
本发明专利技术公开一种基于消息队列的分布式数据实时去重方法,根据消息网络接口,配置若干台数据从服务器,并加入消息网络;为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;根据原始数据信息,去重数据信息及去重服务信息确定从服务器;原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;主服务器根据从服务器信息更新从服务器信息。

【技术实现步骤摘要】

本专利技术涉及分布式计算
,尤其涉及一种分布式环境下高效、实时的数据去重方法。
技术介绍
飞速发展的互联网对数据处理的效率和扩展性提供了更高的要求。如今,越来越多的解决方案使用分布式系统来应对这一挑战。与集中式系统相对,分布式系统将应用分解成许多小的部分,分配给多台计算机进行处理,具有扩展性好、整体成本低、处理效率高等特征。分布式系统是建立在网络上的软件系统,其展现给用户的是一个统一的整体,但内部独立的分布式计算模块之间却涉及复杂的数据交互。在某些应用场景下,例如有多个数据生产者同时产生相同类型的数据,有多个消费者随机的实时消费这些数据。为了确保一致性,对数据生产者产生的数据进行实时去重就显得尤为重要。
技术实现思路
本专利技术公开,该方法在消息网络的基础上,加入一组数据去重信息服务器,一方面消费原始数据产生着生成的数据,另一方面对原始数据去重后提供给数据消费者使用。为解决上述问题,本专利技术提供了,该方法包括步骤:S1.配置一台去重信息服务器;S2.配置一台主服务器;S3.根据消息网络接口,配置若干台数据从服务器,并加入消息网络;S4.为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;S5.根据原始数据信息,去重数据信息及去重服务信息确定从服务器;S6.原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;S7.数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;S8.去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;S9.主服务器根据从服务器信息更新从服务器信息。【具体实施方式】本专利技术的,包括如下步骤:S1.配置一台去重信息服务器;S2.配置一台主服务器;S3.根据消息网络接口,配置若干台数据从服务器,并加入消息网络;S4.为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;S5.根据原始数据信息,去重数据信息及去重服务信息确定从服务器;S6.原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;S7.数据从去重信息服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;S8.去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;S9.主服务器根据从服务器信息更新从服务器信息。其中,步骤SI之前还包括步骤:A1.启动异步消息网络系统。其中,步骤SI还包括步骤:S1.1配置原始数据信息表,该表包括三元组,〈Pr1-MagicID, Pr1-MQ, Durat1n〉,其中,Pr1-MagicID为去重服务与原始数据产生者约定的ID,可预先分配;Pri_MQ为存放原始数据的消息队列;Durat1n为去重老化时间;S1.2配置去重数据信息表,该表包括二元组,〈Inst-MagicID,Inst_MQ>,其中,Inst-MagicID为去重服务与去重数据消费者约定的ID,可预先分配;Inst-MQ为存放去重数据的消息队列;S1.3配置去重服务信息表,该表包括三元组,〈Pr1-MagicID,Inst_MagicID, ProcessingHost〉,其中,Pr1-MagicID为去重服务与原始数据产生者约定的ID ;Inst-MagicID为去重服务与去重数据消费者约定的ID ;ProcessingHost为从服务器;S1.4配置去重信息服务信息表,该表包括三元组,〈ProcessingHost, CPU, Mem, Disk, Net, Time〉,其中,ProcessingHost为从服务器,CPU为该服务器当前CPU利用率;Mem为该服务器当前内存使用率;Disk为该服务器当前磁盘使用率;Net为该服务器当前带宽使用率;Time为最后更新时间。其中,步骤S2还包括步骤:S2.1主服务器每I秒钟读取去重信息服务器中的去重服务信息表,去重服务器信息表;其中,步骤S3还包括步骤:S3.1从服务器每I秒钟采集CPU、内存、磁盘及带宽使用率,并将这些信息更新至去重信息服务器中的去重服务信息表。其中,步骤S4还包括步骤:S4.1为每种去重应用分配Pr1-MagicID,确定Durat1n,同时在消息网络中初始化Pr1-MQ,并将这些信息更新至去重信息服务器的原始数据信息表;S4.2为每种去重应用分配Inst-MagicID,同时在消息网络中初始化Inst_MQ,并将这些信息更新至去重信息服务器的原始数据信息表;S4.3为每种去重应用在去重服务信息表中添加去重服务信息,填写Pr1-MagicID和 Inst_MagicID 字段。其中,步骤S5还包括步骤:S5.1从读取的去重服务信息表中查找未分配ProcessingHost的去重服务;S5.2从最近5秒内更新过信息的从服务器中,根据下式计算负载系数;P = CPU*0.3+Mem*0.3+Disk*0.1+Net*0.3S5.3选择负载系数最小的从服务器,并将信息更新至去重服务信息表。其中,步骤S6还包括步骤:S6.1原始数据产生者每I秒钟查询去重服务信息;S6.2若存在ProcessingHost,则将原始数据发送至相应的Pri_MQ。其中,步骤S7还包括步骤:S7.1从服务器每I秒钟查询去重服务信息表;S7.2若存在与本机相对应的ProcessingHost,则初始化去重引擎;S7.3根据去重服务信息读取Pr当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于消息队列的分布式数据实时去重方法,其特征在于,包括以下步骤:S1.配置一台去重信息服务器;S2.配置一台主服务器;S3.根据消息网络接口,配置若干台数据从服务器,并加入消息网络;S4.为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;S5.根据原始数据信息,去重数据信息及去重服务信息确定从服务器;S6.原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;S7.数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;S8.去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;S9.主服务器根据从服务器信息更新从服务器信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:王大伟孙昊良何清林马秀娟张良吴昊汪立东
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1