一种数据收集与分析方法技术

技术编号:39901147 阅读:6 留言:0更新日期:2023-12-30 13:15
本申请提供一种数据收集与分析方法,包括:采用数据分析工具,结合埋点数据协同分析精度和埋点数据项之间的协同作用,对各埋点数据进行关联程度分析;判断一个埋点数据项的分析结果是否能推断出另一个埋点数据项结果,减少埋点数量;通过对埋点数据项的实时价值

【技术实现步骤摘要】
一种数据收集与分析方法


[0001]本专利技术涉及信息
,尤其涉及一种数据收集与分析方法


技术介绍

[0002]随着互联网和移动应用的快速发展,越来越多的企业和机构开始使用埋点数据分析工具来收集和分析用户行为数据,以支持决策和优化业务

然而,传统的埋点数据分析存在一些问题,如埋点数量庞大

用户隐私泄露等

首先,由于埋点数据项的数量庞大,分析师需要花费大量时间和精力来处理和分析这些数据

这不仅增加了工作负担,也可能导致数据分析的效果不佳

其次,传统的埋点数据分析往往忽略了用户隐私的保护

埋点数据中可能包含用户的个人信息和敏感数据,如果这些数据泄露或被滥用,将给用户造成严重的隐私风险

传统的埋点数据分析往往对埋点数据项之间的关联程度缺少分析,但是在实际应用中埋点数据项之间存在着或多或少的联系,从一个埋点数据项的结果可以推断或者估计出另一个埋点数据项的结果

传统的埋点数据分析往往没有一个确定埋点数据项的策略和方法,大多是仅仅根据业务需求通过分析师的业务经验来确定埋点数据项,并没有对埋点数据项的实时价值进行分析,减少不必要的埋点数据项,保留有价值的埋点数据项,最终可能导致为了追求分析的准确性而设置的埋点数据项过于冗余,造成了大量的资源浪费

传统的埋点数据分析往往缺少对埋点数据项的隐私敏感性进行分析,也没有在用户隐私保护和数据分析的便利性之间进行评估权衡,可能导致敏感性较高的数据没有及时加密,而敏感性较低的数据加密过早导致信息缺失影响后续分析的两难局面


技术实现思路

[0003]本专利技术提供了一种数据收集与分析方法,主要包括:
[0004]采用数据分析工具,结合埋点数据协同分析精度和埋点数据项之间的协同作用,对各埋点数据进行关联程度分析;判断一个埋点数据项的分析结果是否能推断出另一个埋点数据项结果,减少埋点数量;通过对埋点数据项的实时价值

埋点数据项保留优先级与数据项相关性进行综合判断,确定需要保留的埋点数据项;分析埋点数据项的敏感性,结合用户隐私保护机制,判断每一个数据项是否能够保护用户隐私,若某数据项敏感性高于预设阈值,采用先加密再埋点分析的隐私保护措施;针对数据隐私级别低于预设阈值的数据,根据数据获取与加密的时间差异,选择最佳的加密时机,即当加密会导致埋点数据分析困难时,则先分析再在后续传输中进行加密;综合埋点数据加密后的可解析度和加密算法的稳定性,选择最优的加密方法和算法,同时确保解密后数据的完整性和准确性;基于获取到的全部埋点数据,对数据项的敏感性和价值进行定期评估,确保其随业务变化持续调整数据埋点数据的加密时机

[0005]在一种实施方式中,所述采用数据分析工具,结合埋点数据协同分析精度和埋点数据项之间的协同作用,对各埋点数据进行关联程度分析,包括:
[0006]调用
Python

pandas、numpy
数据分析库作为数据分析工具;获取所有埋点数据项
所捕获的数据,包括但不限于埋点数据的时间戳

来源

类型和其他相关属性;利用
Python

pandas、numpy
数据分析库的数据源整合策略属性,将多个数据源进行统一整合,确保数据完整性和准确性;对整合后的数据进行时间序列排序,确保数据在时间维度上的连续性和完整性;应用
Apriori
关联分析算法对整合后的数据进行分析,计算项集的支持度,以及关联规则的置信度,分析每个埋点数据项之间的关联强度;应用线性回归分析算法,对数据项之间的协同作用进行量化评估,输出数据项之间的协同得分;利用数据协同效果属性评估各数据项之间的协同效果,输出协同效果得分

[0007]在一种实施方式中,所述判断一个埋点数据项的分析结果是否能推断出另一个埋点数据项结果,减少埋点数量,包括:
[0008]进行数据预处理,如果数据项的采集频率过高,对每个埋点数据进行整合获得其平均值;根据关联度分析和协同效果得分来确定任意两个埋点数据项之间的协同性;得到埋点数据项的协同矩阵;计算协同矩阵各列数据的平均值,方差;根据平均值,方差将矩阵各列重新降序排列;根据预设位置,排在预设位置之前的是可推断的数据项;分析埋点数据,获取并识别用户行为路径,判断当前埋点数据项在路径中所处的位置;利用行为路径中的位置以及结合业务的分析需求,判断当前埋点数据项的重要性;分析当前埋点数据项的历史数据,利用自回归模型将埋点数据项数据同预设间隔时长之内的历史数据进行回归分析,判断当前数据与历史数据的匹配程度,得到当前埋点数据项的稳定性;结合当前埋点数据项的稳定性

重要性以及协同性,判断当前埋点数据项是否删去,如果三者均超过预设阈值则标记为可删数据项

[0009]在一种实施方式中,所述通过对埋点数据项的实时价值

埋点数据项保留优先级与数据项相关性进行综合判断,确定需要保留的埋点数据项,包括:
[0010]通过自回归算法分析埋点数据项的历史记录,对每个埋点数据项进行历史稳定性评估;根据先验信息生成每个埋点数据项的生命周期链条;通过监控每个埋点数据在收集和分析过程中的状态对其进行标记,通过标记分析数据在生命周期中所处的阶段;通过
Apriori
关联算法分析数据项与外部系统的依赖关系,得出该数据项的关键性评价;通过监控每个数据项参与业务分析的次数和业务分析的类型确定数据项的使用频率;对全部的业务分析项目进行遍历,确定每个数据项与其他数据项共同参与分析的次数和频率,以及共同参与分析的数据项的数量,判定每个数据项对业务决策的敏感性;根据数据项的稳定性,所处生命周期阶段和关键性,使用频率和敏感性确定数据项的保留优先级;根据保留优先级,确定数据保留的策略和方法;获取数据项的全局分布情况,并判断数据项在关键业务流程中的位置和价值,输出数据项的相关性评价;应用层次分析法评估数据项的细节级别;利用滑动平均法和极端值检测识别潜在的数据腐化风险;基于保留策略,细节级别,数据腐化风险标记高价值和低价值数据项,并进行分类,在不同类别中执行数据保留策略;持续监控数据项的各项属性和价值,当属性发生变化时,自动调整保留策略

[0011]在一种实施方式中,所述分析埋点数据项的敏感性,结合用户隐私保护机制,判断每一个数据项是否能够保护用户隐私,若某数据项敏感性高于预设阈值,采用先加密再埋点分析的隐私保护措施,包括:
[0012]获取埋点数据项,判断数据项与用户隐私保护机制的应用规则是否符合;如果不符合,则根据相关规定和业务需求判断埋点数据项是否可以进行数据获取,如果可以则直
接进行埋点分析,否则应当寻找其他埋点数据项进行替代;评估数据项的敏感性,通过埋本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据收集与分析方法,其特征在于,所述方法包括:采用数据分析工具,结合埋点数据协同分析精度和埋点数据项之间的协同作用,对各埋点数据进行关联程度分析;判断一个埋点数据项的分析结果是否能推断出另一个埋点数据项结果,减少埋点数量;通过对埋点数据项的实时价值

埋点数据项保留优先级与数据项相关性进行综合判断,确定需要保留的埋点数据项;分析埋点数据项的敏感性,结合用户隐私保护机制,判断每一个数据项是否能够保护用户隐私,若某数据项敏感性高于预设阈值,采用先加密再埋点分析的隐私保护措施;针对数据隐私级别低于预设阈值的数据,根据数据获取与加密的时间差异,选择最佳的加密时机,即当加密会导致埋点数据分析困难时,则先分析再在后续传输中进行加密;综合埋点数据加密后的可解析度和加密算法的稳定性,选择最优的加密方法和算法,同时确保解密后数据的完整性和准确性;基于获取到的全部埋点数据,对数据项的敏感性和价值进行定期评估,确保其随业务变化持续调整数据埋点数据的加密时机
。2.
根据权利要求1所述的方法,其中,所述采用数据分析工具,结合埋点数据协同分析精度和埋点数据项之间的协同作用,对各埋点数据进行关联程度分析,包括:调用
Python

pandas

numpy
数据分析库进行数据整合与排序,保障其完整性与准确性;
Apriori
关联分析算法应用于整合后数据,计算项集的支持度,关联规则的置信度,进一步分析每个埋点数据项之间的关联强度;采用线性回归分析算法,对数据项之间的协同作用进行量化评估,输出协同得分;协同效果属性评估用于衡量数据项间的协同效果,确保协同效果得分的准确输出
。3.
根据权利要求1所述的方法,其中,所述判断一个埋点数据项的分析结果是否能推断出另一个埋点数据项结果,减少埋点数量,包括:进行数据预处理整合每个埋点数据的频率,获得平均值;根据关联度分析和协同效果得分确定埋点数据项间的协同性,构建协同矩阵;矩阵数据平均值和方差用于列的重新排序;排在预设位置前的数据项标记为可推断;分析埋点数据和用户行为路径确定数据项在路径中的位置,结合业务分析需求评价数据项重要性;通过自回归模型与历史数据回归分析评估数据项稳定性;结合稳定性

重要性和协同性,超过阈值的数据项标记为可删
。4.
根据权利要求1所述的方法,其中,所述通过对埋点数据项的实时价值

埋点数据项保留优先级与数据项相关性进行综合判断,确定需要保留的埋点数据项,包括:采用自回归算法评估埋点数据项历史稳定性,生成生命周期链条;通过标记分析数据项在生命周期中的阶段,
Apriori
关联算法评估数据项与外部系统依赖关系;通过监控数据项使用频率,敏感性评估对业务决策的影响;根据数据项的稳定性,所处生命周期阶段和关键性,使用频率和敏感性确定数据项的保留优先级;获取数据项全局分布情况和关键业务流程位置,评估数据项相关性;采用层次分析法和滑动平均法识别数据腐化风...

【专利技术属性】
技术研发人员:蔺文龙吴伟勇周志平
申请(专利权)人:广州有机云计算有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1