基于GraphX图计算的信创云平台数据化运营系统技术方案

技术编号:38344688 阅读:15 留言:0更新日期:2023-08-02 09:24
本发明专利技术涉及一种基于GraphX图计算的信创云平台数据化运营系统,包括:数据采集模块,用于采集接入终端的信息以及访问的云服务ServiceId,并形成埋点日志;数据清洗和预处理模块用于对所述埋点日志进行数据清洗和预处理;智能分析模块,用于基于预处理后的数据构成前一天对应云服务的用户接入无向信息图组成的森林结构,并基于GraphX图建模算法实现用户关联设备字典建模,并依托Spark分布式内存计算引擎得到所有云服务前一天用户活跃度的统计;数据更新模块,用于根据智能分析模块的分析结果对用户设备信息字典数据和活跃度信息进行更新。本发明专利技术能够对大量传统方案无法处理的未登录日志进行挖掘,提升了云平台数字化运营的准确度与精密度。运营的准确度与精密度。运营的准确度与精密度。

【技术实现步骤摘要】
基于GraphX图计算的信创云平台数据化运营系统


[0001]本专利技术涉及云平台数据化
,特别是涉及一种基于GraphX图计算的信创云平台数据化运营系统。

技术介绍

[0002]随着云计算和大数据等科技新基建的日趋成熟,国内在信息技术应用创新背景下,以国产CPU、操作系统为底座,自主研发的兼顾计算、存储、网络的综合信创云计算平台,成为各大数据中心加速行业数字化转型,提升自主可控云建设的优选。通过前期不断建设优化升级,信创云平台逐渐由建设规划迈向智慧运营新阶段,如何通过智能化数字化运营方式服务一线、贴近用户成为了信创云平台新的优化课题。
[0003]传统数据中心云平台为了充分发挥数据驱动运营,通常以各个云服务的活跃度为切入点,将用户的日活跃度、月活跃度等一段时间内用户行为进行量化,以量化结果为数据依据,分别从云服务维度和用户维度进行优化发掘。从云服务活跃维度,对于云服务活跃度较低的情况,对应服务的研发团队可进一步针对其功能、性能、实用性、需求等情况进行挖掘迭代调优;对于活跃度较高的云服务,运维管理员可及时关注底层物理资源池分配情况,以便提前做好扩容准备;从用户维度,通过对云平台不同租户下所有用户的行为活跃分析,进而实现企业租户画像建模,用数字化手段更加了解用户的实际需求。
[0004]传统云平台针对不同云服务用户活跃度的分析,依赖于用户从终端登录之后识别相应的用户,并对其浏览行为进行采集,然用户在实际真实使用过程中,除非确定要创建新的云资源或者变更已有云资源,通常对于潜在感兴趣的云服务功能浏览并不会登陆,传统根据登陆用户统计活跃度的方案则无法统计到大量未登陆情况下的活跃情况。对于未注册、或者未登陆产生浏览行为时,由于用户可能使用各种各样的终端设备,有着各种各样的访问入口,甚至同一用户拥有多个设备以及使用多种前端入口,包括电脑客户端、电脑网页端、不同版本的安卓手机客户端、不同版本的IOS手机客户端等,就会导致大量未登录行为日志无法判断哪些浏览行为属于同一个用户,是否已注册用户,且无法进行数据量化。

技术实现思路

[0005]本专利技术所要解决的技术问题是提供一种基于GraphX图计算的信创云平台数据化运营系统,能够对大量传统方案无法处理的未登录日志进行挖掘,提升了云平台数字化运营的准确度与精密度。
[0006]本专利技术解决其技术问题所采用的技术方案是:提供一种基于GraphX图计算的信创云平台数据化运营系统,包括:数据采集模块,在前端入口制作埋点日志,用于在用户对云平台的云服务进行访问时,采集接入终端的信息以及访问的云服务ServiceId,并形成埋点日志;数据清洗和预处理模块,包括数据清洗部分和数据预处理部分,所述数据清洗部分用于对所述埋点日志进行数据清洗;所述数据预处理部分用于对清洗后的数据进行预处
理,得到全量记录浏览设备详细信息的IdMappingFile、用于计算后续各租户对于不同云服务的活跃度统计ServiceTenantActiveFile、以及用于计算后续不同云服务的用户活跃度统计ServiceActiveFile;智能分析模块,用于基于IdMappingFile构成前一天对应云服务的用户接入无向信息图组成的森林结构,基于GraphX图建模算法实现用户关联设备字典建模,并依托Spark分布式内存计算引擎结合ServiceTenantActiveFile和ServiceActiveFile得到所有云服务前一天用户活跃度的统计;数据更新模块,用于根据智能分析模块的分析结果对用户设备信息字典数据和活跃度信息进行更新。
[0007]所述数据采集模块采集的接入终端的信息包括用户在云平台的唯一识别ID、接入终端的入网许可证号、接入终端的Mac地址、接入终端的SIM卡序号、AndroidId、接入终端的设备序列号以及接入终端的IP地址。
[0008]所述数据清洗部分包括:第一数据丢弃单元,用于对所述埋点日志中缺少访问的云服务ServiceId的数据进行丢弃;第二数据丢弃单元,用于对所述埋点日志中缺少接入终端的信息的数据进行丢弃;第三数据丢弃单元,用于对所述埋点日志中非正常日期或者非前一天日期的数据进行丢弃。
[0009]所述数据预处理部分包括:扁平化处理单元,用于对清洗后的数据进行扁平化处理生成IdMappingLogFile;第一预处理单元,用于在IdMappingLogFile的基础上对每一行数据去除tenantId和serviceId两个属性,并对保留的每个属性值添加属性名称标签,得到全量记录浏览设备详细信息的IdMappingFile;第二预处理单元,用于对IdMappingLogFile中每一行数据从租户在各云服务活跃情况的角度进行计量,形成ServiceTenantActiveFile;第三预处理单元,用于对IdMappingLogFile中每一行数据从各云服务的用户活跃度计量,得到ServiceActiveFile。
[0010]所述智能分析模块包括:森林结构构成单元,用于以IdMappingFile中的所有数值构成点集合,以IdMappingFile中的每一行属性按照顺序组成的关联关系构成边集合,基于所述点集合和边集合组成无向活跃图,构成森林结构;关联设备字典形成单元,用于根据所述森林结构得到用户所有接入终端所有入口信息的最小连通分量,并基于所述最小连通分量形成用户关联设备字典文件;统计文件更新单元,用于基于用户关联设备字典文件更新ServiceTenantActiveFile中中未登录无属主的浏览记录信息;活跃度统计单元,用于通过Spark分布式内存计算引擎分别对更新后的ServiceTenantActiveFile和ServiceActiveFile进行并行分片计算,得到当天各租户对不同云服务的活跃度、以及不同云服务的用户活跃度。
[0011]所述数据更新模块采用HBase数据库根据智能分析模块的分析结果对用户设备信息字典数据和活跃度信息进行更新。
[0012]所述的基于GraphX图计算的信创云平台数据化运营系统还包括数据可视化模块,所述数据可视化模块包括后端服务单元和前端展示单元,所述后端服务单元用于针对不同时间段的活跃度进行查询计算;所述前端展示单元用于为运营管理员根据不同时间段租户
数据刻画其近期云服务偏好需求画像。
[0013]有益效果
[0014]由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术通过GraphX图计算创建了用户设备信息字典,并不断自动学习更新,实时存储在数据持久层,对未登陆的浏览信息通过查询设备信息字典可解析到其关联用户,因此对已注册未登陆用户的活跃度也可统计,大力提升了运营指标的精准性。本专利技术通过GraphX图计算创建的用户设备信息字典,可解析未注册浏览信息是否为同一用户,并纳入活跃度统计中,云服务活跃指标进一步趋近于实际需求。本专利技术对未注册用户的设备信息同样记录到用户设备字典中,可用于运营系统潜在用户数量指标分析。本专利技术所涉及到的海量浏览数据均采用了S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GraphX图计算的信创云平台数据化运营系统,其特征在于,包括:数据采集模块,在前端入口制作埋点日志,用于在用户对云平台的云服务进行访问时,采集接入终端的信息以及访问的云服务ServiceId,并形成埋点日志;数据清洗和预处理模块,包括数据清洗部分和数据预处理部分,所述数据清洗部分用于对所述埋点日志进行数据清洗;所述数据预处理部分用于对清洗后的数据进行预处理,得到全量记录浏览设备详细信息的IdMappingFile、用于计算后续各租户对于不同云服务的活跃度统计ServiceTenantActiveFile、以及用于计算后续不同云服务的用户活跃度统计ServiceActiveFile;智能分析模块,用于基于IdMappingFile构成前一天对应云服务的用户接入无向信息图组成的森林结构,基于GraphX图建模算法实现用户关联设备字典建模,并依托Spark分布式内存计算引擎结合ServiceTenantActiveFile和ServiceActiveFile得到所有云服务前一天用户活跃度的统计;数据更新模块,用于根据智能分析模块的分析结果对用户设备信息字典数据和活跃度信息进行更新。2.根据权利要求1所述的基于GraphX图计算的信创云平台数据化运营系统,其特征在于,所述数据采集模块采集的接入终端的信息包括用户在云平台的唯一识别ID、接入终端的入网许可证号、接入终端的Mac地址、接入终端的SIM卡序号、AndroidId、接入终端的设备序列号以及接入终端的IP地址。3.根据权利要求1所述的基于GraphX图计算的信创云平台数据化运营系统,其特征在于,所述数据清洗部分包括:第一数据丢弃单元,用于对所述埋点日志中缺少访问的云服务ServiceId的数据进行丢弃;第二数据丢弃单元,用于对所述埋点日志中缺少接入终端的信息的数据进行丢弃;第三数据丢弃单元,用于对所述埋点日志中非正常日期或者非前一天日期的数据进行丢弃。4.根据权利要求1所述的基于GraphX图计算的信创云平台数据化运营系统,其特征在于,所述数据预处理部分包括:扁平化处理单元,用于对清洗后的数据进行扁平化处理生成IdMappingLogFile;...

【专利技术属性】
技术研发人员:王婷肖良华李永海曹玉婷
申请(专利权)人:中国人寿保险股份有限公司上海数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1