【技术实现步骤摘要】
一种CDN日志统计方法、装置及电子设备
[0001]本专利技术涉及大数据分析
,具体涉及一种CDN日志统计方法、装置及电子设备。
技术介绍
[0002]随着信息技术的发展,网络流量的快速增长成为了当下的现实和未来的趋势,作为提高网络服务质量和减少内容源站压力的技术服务——内容分发网络(CDN)的使用量也因此呈现爆发式增长。在使用CDN服务的情况下,每一次网络请求都会产生一条CDN日志,为了满足数据分析及业务相关的需求,CDN厂商往往要对巨大数据量的CDN日志定时进行某个维度或维度组合的对应的数值数据进行排序统计,计算出排名最靠前的N个数据用于业务需求。在海量数据的场景下,使用单机进行数据处理往往会造成数据处理性能瓶颈,从而无法到达实时性要求。同时在单机处理下,计算和储存服务的可靠性往往无法保证,在出现网络和硬件故障时容易出现线上事故造成服务出现不可用的情况,严重影响使用体验。
技术实现思路
[0003]因此,本专利技术要解决的技术问题在于克服现有单机进行处理海量数据时实时性差且无法保证计算和储存服务的可 ...
【技术保护点】
【技术特征摘要】
1.一种CDN日志统计方法,其特征在于,存储有CDN日志数据的存储模块与多集群通信连接,所述多集群按照预设比例存储相应的CDN日志数据,所述方法应用于多集群中任一集群对应的处理设备,包括:从对应集群中的Hadoop分布式文件系统上读取CDN日志数据到Spark的对应分区中,并以CDN日志数据的部分字段组成维度组合作为CDN日志分类依据,以CDN日志类型作为键,将对应类型的CDN日志数值维度作为值;对同一个Spark分区内的每一个键遍历其对应的所有值构建对应的小顶堆数据结构;对所述集群中的不同Spark分区中相同的键所对应的小顶堆数据结构中的数据进行合并;将合并后得到的每一个键对应小顶堆数据结构中的数据同步到其他集群中。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取其他集群中同步的所述合并后得到的每一个键对应小顶堆数据结构中的同步数据;将所述同步数据保存到ClickHouse中。3.根据权利要求1所述的方法,其特征在于,所述对同一个Spark分区内的每一个键遍历其对应的所有值构建对应的小顶堆数据结构,包括:对同一个Spark分区内的每一个键遍历其对应的前N个值得到大小为N的小顶堆;根据所述得到的大小为N的小顶堆遍历除了所述前N个值以外的其他值,当所述其他值大于小顶堆的堆顶数据,对小顶堆中的堆顶数据进行替换,并根据替换后的数据重新构建成一个大小为N的小顶堆。4.根据权利要求1所述的方法,其特征在于,所述对所述集群中的不同Spark分区中相同的键所对应的小顶堆进行合并,包括:获取不同Spark分区内相同的键对应的小顶堆数据结构中所有值,并得到对应的值的集合;根据不同Spark分区内相同的键遍历所述值的集合中的所有值的前N个值得到对应大小为N的小顶堆;根据所述得到的对应大小为N的小顶堆遍历对应的值的集合内除了所述前N个值以外的其他值,当所述其他值大于小顶堆的堆顶数据,对小顶堆中的堆顶数据进行替换,并根据替换后的数据重新构建成一个大小为N的小顶堆。5.根据权利要求2所述的方法,其特征在于,所述将所述同步数据保存到ClickHouse中之后,所述方法还包括:当获取到客户端的查询数据请求...
【专利技术属性】
技术研发人员:曹国栋,马佳骏,彭华杰,谭运保,王浩光,陈伟松,唐中平,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。