数据异常归因分析方法及装置制造方法及图纸

技术编号:19142597 阅读:27 留言:0更新日期:2018-10-13 09:02
本发明专利技术公开了一种数据异常归因分析方法及装置。其中方法包括:获取待监测指标的第一数据;利用预设数据模型计算第一数据发生数据异常的异常概率;若异常概率大于或等于预设阈值,获取归因指标数据;基于归因指标数据,利用预设归因算法进行归因分析计算,将归因分析结果发送给处理端,能够大大降低公司或企业对数据异常监控所消耗的人力成本,提高准确度,该方法具有很好的普适性。此外,还大大降低了对业务经验的依赖,而且通过量化异常程度,便于对大量指标进行自动准确监控,提高数据监控效率,减轻分析人员的工作量,通过将归因分析结果发送给处理端,可供处理端进行故障排除,提高排障效率。

Data anomaly attribution analysis method and device

The invention discloses a data abnormal attribution analysis method and device. The methods include: obtaining the first data of the index to be monitored; using the preset data model to calculate the abnormal probability of the first data; if the abnormal probability is greater than or equal to the preset threshold, getting the attribution index data; based on the attribution index data, using the preset attribution algorithm for attribution analysis and calculation, attribution. The results of analysis can be sent to the processing end, which can greatly reduce the cost of human resources consumed by companies or enterprises to monitor data anomalies and improve the accuracy. This method has good universality. In addition, it greatly reduces the dependence on business experience, and by quantifying the degree of abnormality, it is easy to automatically and accurately monitor a large number of indicators, improve the efficiency of data monitoring, reduce the workload of analysts, and send the attribution analysis results to the processing end, which can be used for troubleshooting and improve the efficiency of obstacle removal.

【技术实现步骤摘要】
数据异常归因分析方法及装置
本专利技术涉及数据处理
,具体涉及一种数据异常归因分析方法及装置。
技术介绍
随着互联网的普及,各行各业的公司每时每刻都在生产沉淀海量的数据。为了利用这些数据,不同公司,依据公司的业务偏好从数据中提炼出了大量的不同的数据指标,用于衡量公司业务发展情况,公司产品质量情况等等。以电子商务网站为例,衡量公司业务的数据指标包含:日活跃用户数,日浏览量,月活跃用户数,月浏览量,用户点击率,用户交易转化率,用户注册转化率,平均用户浏览量,平均浏览深度,平均停留时长,页面停留时间,着陆页跳出率,页面二跳率,用户复购率,平均复购时间等等。以口碑平台的O2O业务为例,口碑平台拥有百万级别的线下店铺,每个店铺每天会产出与其相关的交易笔数,交易金额,初级营销笔数,初级营销金额,高级营销笔数,高级营销金额,折扣率,作弊笔数,作弊金额等数据指标。对于数据指标的监控分析,各行各业都存在着大量的需求,传统的方式是将这些指标整理成表格或者可视化为曲线或柱状图或饼图等,人工查看分析;或者以简单的统计指标监控为主,对数据异常的判断相对简单并依赖主观经验。这里面存在几个问题:第一,有些公司业务指标数量非常多(例如口碑),靠分析人员逐个观察分析,效率非常低下,而且容易由于疏忽而导致遗漏;第二,分析人员对数据异常的判断主要依靠个人经验,这导致不同分析人员对于数据异常的判断标准不同,也最终会导致分析结果的不同;第三,当某项数据指标异常时,比如电商网站的订单转化率异常下降,当原因非常直接明显单一时,靠分析人员的观察分析可能比较容易得到结论,而当原因错综复杂,而且相对不是很明显时,单单依靠分析人员的经验,往往得不到有效的可量化的归因结论。以阿里ODPS平台表数据监控为例,ODPS监控平台对表数据的监控仅限于对简单统计量(总数据条数、空值、数据升降百分比等)进行阈值监控(根据业务经验设定)。当需要监控的数据表(字段)相对比较少,业务经验较为充分,并且上述简单统计量能够表现出需要监控的异常时,才能够达到相对较好的效果;而对于如果对大量表(字段)进行监控,并且业务经验相对不足、仅靠简单的统计量无法达到异常监控目的时,则无法进行有效的数据监控(例如口碑平台店铺经营异常的发现任务,由于店铺数量多(百万级别),每个行业的相应指标波动变化不一致,每个店铺交易额的波动规律也不一致,导致人工定制规则比较困难,而且一刀切式的规则也往往经常设定的不合理)。因此,如何能够对公司或企业关心的数据指标出现异常时能够自动发现,并且给出产生异常可能的原因,辅助分析人员进行分析诊断,是本专利技术急需解决的问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的数据异常归因分析方法及装置。根据本专利技术的一个方面,提供了一种数据异常归因分析方法,包括:获取待监测指标的第一数据;利用预设数据模型计算第一数据发生数据异常的异常概率;若异常概率大于或等于预设阈值,则获取归因指标数据;基于归因指标数据,利用预设归因算法进行归因分析计算,将归因分析结果发送给处理端。可选地,预设数据模型包括:第一预设数据模型和第二预设数据模型;利用预设数据模型计算第一数据发生数据异常的异常概率进一步包括:验证第一数据的数据平稳性;若第一数据通过数据平稳性验证,则利用第一预设数据模型计算第一数据发生数据异常的异常概率;若第一数据未通过数据平稳性验证,则利用第二预设数据模型计算第一数据发生数据异常的异常概率。可选地,利用第一预设数据模型计算第一数据发生数据异常的异常概率进一步包括:利用第一预设数据模型计算第一数据的置信度;根据置信度计算第一数据发生数据异常的异常概率。可选地,利用第二预设数据模型计算第一数据发生数据异常的异常概率进一步包括:利用第二预设数据模型计算第一数据的概率积分,根据概率积分计算第一数据发生数据异常的异常概率。可选地,在利用预设数据模型计算第一数据发生数据异常的异常概率之前,方法还包括:检测是否已建立预设数据模型且预设数据模型是否失效;若已建立预设数据模型且预设数据模型未失效,则利用预设数据模型计算第一数据发生数据异常的异常概率;若未建立预设数据模型或预设数据模型已失效,则获取待监测指标的第二数据;根据第二数据进行模型拟合处理,得到预设数据模型,利用预设数据模型计算第一数据发生数据异常的异常概率。可选地,基于归因指标数据,利用预设归因算法进行归因分析计算进一步包括:利用预设归因算法计算归因指标数据与第一数据的相关性;根据相关性确定导致数据异常的归因分析结果。可选地,预设归因算法包括:互信息检验、卡方检验、线性相关系数和/或格兰杰因果检验。可选地,第一数据包括:店铺标识;归因分析结果包括:店铺标识、数据异常描述信息、第一数据;在将归因分析结果发送给处理端之前,方法还包括:对归因分析结果进行排序处理;将归因分析结果发送给处理端进一步包括:将排序后的归因分析结果发送给处理端。可选地,对归因分析结果进行排序处理进一步包括:基于排序特征对店铺进行排序,得到排序后的归因分析结果。可选地,对归因分析结果进行排序处理进一步包括:利用预设排序模型对店铺进行排序,得到排序后的归因分析结果。可选地,方法还包括:获取处理端反馈数据;根据处理端反馈数据对预设排序模型进行优化。可选地,方法还包括:若异常概率大于或等于预设阈值,则确定第一数据发生异常,向处理端发送报警信息。根据本专利技术的另一方面,提供了一种数据异常归因分析装置,包括:第一获取模块,适于获取待监测指标的第一数据;异常概率计算模块,适于利用预设数据模型计算第一数据发生数据异常的异常概率;第二获取模块,适于若异常概率大于或等于预设阈值,则获取归因指标数据;归因分析计算模块,适于基于归因指标数据,利用预设归因算法进行归因分析计算;发送模块,适于将归因分析结果发送给处理端。可选地,预设数据模型包括:第一预设数据模型和第二预设数据模型;异常概率计算模块进一步适于:验证第一数据的数据平稳性;若第一数据通过数据平稳性验证,则利用第一预设数据模型计算第一数据发生数据异常的异常概率;若第一数据未通过数据平稳性验证,则利用第二预设数据模型计算第一数据发生数据异常的异常概率。可选地,异常概率计算模块进一步适于:利用第一预设数据模型计算第一数据的置信度;根据置信度计算第一数据发生数据异常的异常概率。可选地,异常概率计算模块进一步适于:利用第二预设数据模型计算第一数据的概率积分,根据概率积分计算第一数据发生数据异常的异常概率。可选地,装置还包括:检测模块,适于检测是否已建立预设数据模型且预设数据模型是否失效;异常概率计算模块进一步适于:若已建立预设数据模型且预设数据模型未失效,则利用预设数据模型计算第一数据发生数据异常的异常概率;第一获取模块进一步适于:若未建立预设数据模型或预设数据模型已失效,则获取待监测指标的第二数据;拟合处理模块,适于根据第二数据进行模型拟合处理,得到预设数据模型;异常概率计算模块进一步适于:利用预设数据模型计算第一数据发生数据异常的异常概率。可选地,归因分析计算模块进一步适于:利用预设归因算法计算归因指标数据与第一数据的相关性;根据相关性确定导致数据异常的归因分析结果。可选地,预设归因算法本文档来自技高网
...

【技术保护点】
1.一种数据异常归因分析方法,包括:获取待监测指标的第一数据;利用预设数据模型计算所述第一数据发生数据异常的异常概率;若所述异常概率大于或等于预设阈值,则获取归因指标数据;基于所述归因指标数据,利用预设归因算法进行归因分析计算,将归因分析结果发送给所述处理端。

【技术特征摘要】
1.一种数据异常归因分析方法,包括:获取待监测指标的第一数据;利用预设数据模型计算所述第一数据发生数据异常的异常概率;若所述异常概率大于或等于预设阈值,则获取归因指标数据;基于所述归因指标数据,利用预设归因算法进行归因分析计算,将归因分析结果发送给所述处理端。2.根据权利要求1所述的方法,其中,所述预设数据模型包括:第一预设数据模型和第二预设数据模型;所述利用预设数据模型计算第一数据发生数据异常的异常概率进一步包括:验证所述第一数据的数据平稳性;若所述第一数据通过数据平稳性验证,则利用第一预设数据模型计算所述第一数据发生数据异常的异常概率;若所述第一数据未通过数据平稳性验证,则利用第二预设数据模型计算所述第一数据发生数据异常的异常概率。3.根据权利要求2所述的方法,其中,所述利用第一预设数据模型计算所述第一数据发生数据异常的异常概率进一步包括:利用第一预设数据模型计算所述第一数据的置信度;根据所述置信度计算所述第一数据发生数据异常的异常概率。4.根据权利要求2所述的方法,其中,所述利用第二预设数据模型计算所述第一数据发生数据异常的异常概率进一步包括:利用第二预设数据模型计算第一数据的概率积分,根据所述概率积分计算第一数据发生数据异常的异常概率。5.根据权利要求1-4中任一项所述的方法,其中,在利用预设数据模型计算第一数据发生数据异常的异常概率之前,所述方法还包括:检测是否已建立预设数据模型且所述预设数据模型是否失效;若已建立预设数据模型且所述预设数据模型未失效,则利用预设数据模型计算第一数据发生...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:口口相传北京网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1