【技术实现步骤摘要】
一种数据收集与分析方法
[0001]本专利技术涉及信息
,尤其涉及一种数据收集与分析方法
。
技术介绍
[0002]随着互联网和移动应用的快速发展,越来越多的企业和机构开始使用埋点数据分析工具来收集和分析用户行为数据,以支持决策和优化业务
。
然而,传统的埋点数据分析存在一些问题,如埋点数量庞大
、
用户隐私泄露等
。
首先,由于埋点数据项的数量庞大,分析师需要花费大量时间和精力来处理和分析这些数据
。
这不仅增加了工作负担,也可能导致数据分析的效果不佳
。
其次,传统的埋点数据分析往往忽略了用户隐私的保护
。
埋点数据中可能包含用户的个人信息和敏感数据,如果这些数据泄露或被滥用,将给用户造成严重的隐私风险
。
传统的埋点数据分析往往对埋点数据项之间的关联程度缺少分析,但是在实际应用中埋点数据项之间存在着或多或少的联系,从一个埋点数据项的结果可以推断或者估计出另一个埋点数据项的结果
。
传统的埋点数据分析往往没有一个确定埋点数据项的策略和方法,大多是仅仅根据业务需求通过分析师的业务经验来确定埋点数据项,并没有对埋点数据项的实时价值进行分析,减少不必要的埋点数据项,保留有价值的埋点数据项,最终可能导致为了追求分析的准确性而设置的埋点数据项过于冗余,造成了大量的资源浪费
。
传统的埋点数据分析往往缺少对埋点数据项的隐私敏感性进行分析,也没有在用户隐私保护和数据分析的 ...
【技术保护点】
【技术特征摘要】
1.
一种数据收集与分析方法,其特征在于,所述方法包括:采用数据分析工具,结合埋点数据协同分析精度和埋点数据项之间的协同作用,对各埋点数据进行关联程度分析;判断一个埋点数据项的分析结果是否能推断出另一个埋点数据项结果,减少埋点数量;通过对埋点数据项的实时价值
、
埋点数据项保留优先级与数据项相关性进行综合判断,确定需要保留的埋点数据项;分析埋点数据项的敏感性,结合用户隐私保护机制,判断每一个数据项是否能够保护用户隐私,若某数据项敏感性高于预设阈值,采用先加密再埋点分析的隐私保护措施;针对数据隐私级别低于预设阈值的数据,根据数据获取与加密的时间差异,选择最佳的加密时机,即当加密会导致埋点数据分析困难时,则先分析再在后续传输中进行加密;综合埋点数据加密后的可解析度和加密算法的稳定性,选择最优的加密方法和算法,同时确保解密后数据的完整性和准确性;基于获取到的全部埋点数据,对数据项的敏感性和价值进行定期评估,确保其随业务变化持续调整数据埋点数据的加密时机
。2.
根据权利要求1所述的方法,其中,所述采用数据分析工具,结合埋点数据协同分析精度和埋点数据项之间的协同作用,对各埋点数据进行关联程度分析,包括:调用
Python
的
pandas
和
numpy
数据分析库进行数据整合与排序,保障其完整性与准确性;
Apriori
关联分析算法应用于整合后数据,计算项集的支持度,关联规则的置信度,进一步分析每个埋点数据项之间的关联强度;采用线性回归分析算法,对数据项之间的协同作用进行量化评估,输出协同得分;协同效果属性评估用于衡量数据项间的协同效果,确保协同效果得分的准确输出
。3.
根据权利要求1所述的方法,其中,所述判断一个埋点数据项的分析结果是否能推断出另一个埋点数据项结果,减少埋点数量,包括:进行数据预处理整合每个埋点数据的频率,获得平均值;根据关联度分析和协同效果得分确定埋点数据项间的协同性,构建协同矩阵;矩阵数据平均值和方差用于列的重新排序;排在预设位置前的数据项标记为可推断;分析埋点数据和用户行为路径确定数据项在路径中的位置,结合业务分析需求评价数据项重要性;通过自回归模型与历史数据回归分析评估数据项稳定性;结合稳定性
、
重要性和协同性,超过阈值的数据项标记为可删
。4.
根据权利要求1所述的方法,其中,所述通过对埋点数据项的实时价值
、
埋点数据项保留优先级与数据项相关性进行综合判断,确定需要保留的埋点数据项,包括:采用自回归算法评估埋点数据项历史稳定性,生成生命周期链条;通过标记分析数据项在生命周期中的阶段,
Apriori
关联算法评估数据项与外部系统依赖关系;通过监控数据项使用频率,敏感性评估对业务决策的影响;根据数据项的稳定性,所处生命周期阶段和关键性,使用频率和敏感性确定数据项的保留优先级;获取数据项全局分布情况和关键业务流程位置,评估数据项相关性;采用层次分析法和滑动平均法识别数据腐化风...
【专利技术属性】
技术研发人员:蔺文龙,吴伟勇,周志平,
申请(专利权)人:广州有机云计算有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。