一种基于Hbase的海量话单分布式去重方法及系统技术方案

技术编号：37400614 阅读：40 留言：0更新日期：2023-04-30 09:28

本发明专利技术公开了一种基于Hbase的海量话单分布式去重方法及系统，涉及分布式海量数据去重技术。针对现有技术中去重工作在分布式系统中性能和实时性均有缺陷的问题提出本方案，将去重表向Hbase提交批量话单的get请求，有返回结果的话单判定为重单；将没有返回结果的话单对应的去重key向Hbase提交批量put请求；再次将去重表向Hbase提交批量话单的get请求，调取所有历史版本记录对比话单是否最早入库的版本，若不是最早入库版本则将该话单判定为重单。采用批量读、写、读的三段检查法来提高吞吐。能满足电信日益增长的业务需求，对海量实时话单的去重处理，保证去重模块不成为整个系统的瓶颈，并为承接预付费业务预留处理能力。并为承接预付费业务预留处理能力。并为承接预付费业务预留处理能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Hbase的海量话单分布式去重方法及系统

[0001]本专利技术涉及分布式海量数据去重技术，尤其涉及一种基于Hbase的海量话单分布式去重方法及系统。

技术介绍

[0002]在通讯计费系统中，从各类网元采集来的话单由于各种不可控原因总是会出现重复话单，因此计费系统的一个重要模块就是去掉重单以保证计费的准确性。
[0003]在现有技术中，通常采取以下策略进行去重：
[0004]1、内存去重：所有话单的去重key写入本地内存进行对比，虽然效率高但只能单机模式运行，无法满足分布式海量话单的应用；
[0005]2、数据库去重：所有话单的去重key写入关系数据库，这样虽然能满足集群访问，但传统关系数据库面对海量读写及加锁请求的时候，无法满足性能要求；
[0006]3、Hbase的checkAndPut方法去重：利用Hbase的表级方法checkAndPut的原子性，虽然能满足海量数据的处理，但实时性能还是达不到商用结算需求。

技术实现思路

[0007]本专利技术目的在于提供一种基...

【技术保护点】

【技术特征摘要】
1.一种基于Hbase的海量话单分布式去重方法，其特征在于，包括以下步骤：去重表的生成步骤：在各分布式网点中获取话单，组成批量话单；计算各话单的去重key，生成该批量话单对应的去重表；三段式查重步骤：将去重表向Hbase提交批量话单的get请求，有返回结果的话单判定为重单；将没有返回结果的话单对应的去重key向Hbase提交批量put请求；再次将去重表向Hbase提交批量话单的get请求，调取所有历史版本记录对比话单是否最早入库的版本，若不是最早入库版本则将该话单判定为重单；去重步骤：根据所述三段式查重步骤的判定结果去除重复的话单。2.根据权利要求1所述一种基于Hbase的海量话单分布式去重方法，其特征在于，再次将去重表向Hbase提交批量话单的get请求前，先将已判定为重单的话单剔除在去重表之外。3.根据权利要求1所述一种基于Hbase的海量话单分布式去重方法，其特征在于，Hbase接收去重key批量put请求的时候，会同时一一对应记录去重key入库的时间戳；调取所有历史版本记录对比话单是否最早入库的版本时，同时对比去重key及其对应的时间戳。4.根据权利要求3所述一种基于Hbase的海量话单分布式去重方法，其特征在于，记录去重key及其时间戳的时候，时间戳后拼接一个sequence。5.根据权利要求4所述一种基于Hbase的海量话单分布式去重方法，其特征在于，利用Hbase的协处理器机制，在regionserver上部署一个observer；所述observer用于拦截去重key的批量put请求；拦截后再对时间戳拼接所述的sequence。6.一种基于Hb...

【专利技术属性】
技术研发人员：罗为，利洪敏，魏石，张宏，刘礼铭，莫建安，
申请(专利权)人：广东亿迅科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人