【技术实现步骤摘要】
一种基于Hbase的海量话单分布式去重方法及系统
[0001]本专利技术涉及分布式海量数据去重技术,尤其涉及一种基于Hbase的海量话单分布式去重方法及系统。
技术介绍
[0002]在通讯计费系统中,从各类网元采集来的话单由于各种不可控原因总是会出现重复话单,因此计费系统的一个重要模块就是去掉重单以保证计费的准确性。
[0003]在现有技术中,通常采取以下策略进行去重:
[0004]1、内存去重:所有话单的去重key写入本地内存进行对比,虽然效率高但只能单机模式运行,无法满足分布式海量话单的应用;
[0005]2、数据库去重:所有话单的去重key写入关系数据库,这样虽然能满足集群访问,但传统关系数据库面对海量读写及加锁请求的时候,无法满足性能要求;
[0006]3、Hbase的checkAndPut方法去重:利用Hbase的表级方法checkAndPut的原子性,虽然能满足海量数据的处理,但实时性能还是达不到商用结算需求。
技术实现思路
[0007]本专利技术目的在于提供一种基 ...
【技术保护点】
【技术特征摘要】
1.一种基于Hbase的海量话单分布式去重方法,其特征在于,包括以下步骤:去重表的生成步骤:在各分布式网点中获取话单,组成批量话单;计算各话单的去重key,生成该批量话单对应的去重表;三段式查重步骤:将去重表向Hbase提交批量话单的get请求,有返回结果的话单判定为重单;将没有返回结果的话单对应的去重key向Hbase提交批量put请求;再次将去重表向Hbase提交批量话单的get请求,调取所有历史版本记录对比话单是否最早入库的版本,若不是最早入库版本则将该话单判定为重单;去重步骤:根据所述三段式查重步骤的判定结果去除重复的话单。2.根据权利要求1所述一种基于Hbase的海量话单分布式去重方法,其特征在于,再次将去重表向Hbase提交批量话单的get请求前,先将已判定为重单的话单剔除在去重表之外。3.根据权利要求1所述一种基于Hbase的海量话单分布式去重方法,其特征在于,Hbase接收去重key批量put请求的时候,会同时一一对应记录去重key入库的时间戳;调取所有历史版本记录对比话单是否最早入库的版本时,同时对比去重key及其对应的时间戳。4.根据权利要求3所述一种基于Hbase的海量话单分布式去重方法,其特征在于,记录去重key及其时间戳的时候,时间戳后拼接一个sequence。5.根据权利要求4所述一种基于Hbase的海量话单分布式去重方法,其特征在于,利用Hbase的协处理器机制,在regionserver上部署一个observer;所述observer用于拦截去重key的批量put请求;拦截后再对时间戳拼接所述的sequence。6.一种基于Hb...
【专利技术属性】
技术研发人员:罗为,利洪敏,魏石,张宏,刘礼铭,莫建安,
申请(专利权)人:广东亿迅科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。