一种异常数据的定位方法及装置制造方法及图纸

技术编号:17265401 阅读:65 留言:0更新日期:2018-02-14 12:54
本发明专利技术提供一种异常数据的定位方法及装置,通过获取待定位数据指标对应的所有维度,根据所述维度获取每一个所述维度对应的维度数据和历史维度数据,其中,维度数据包括至少一项细分项数据,历史维度数据包括至少一项历史细分项数据,利用每个维度的维度数据中包括的细分项数据,构建第一向量,利用此维度的历史维度数据中包括的历史细分项数据,构建第二向量,计算每个维度的所述第一向量和所述第二向量之间的相似度,得到相似度最小值。相似度越小,则说明此维度发生数据异常的可能性越大。定位所述相似度最小值对应的所述维度,实现了自动定位到最可能发生数据异常的维度。而不需要人为逐一查找每个维度下的数据,提高了异常数据的定位效率。

A method and device for locating abnormal data

The invention provides a method and device for locating the abnormal data, all dimensions by obtaining location data corresponding to the index, according to the dimension data and historical data, each of the dimensions corresponding to the dimensions of data including at least one segment of data, historical dimension data includes at least a history segmentation data, including the data using subdivision dimension data of each dimension in the construction of the first vector, using the historical data including the history of subdivision dimension data of this dimension, construct second vectors, calculating the similarity between each dimension of the first vector and the second vector, get the minimum similarity value. The smaller the similarity, the greater the possibility that this dimension will occur. The dimension of the dimension corresponding to the minimum value of the similarity is realized to automatically locate to the most likely data exception. It does not need to find the data in each dimension one by one, and improve the location efficiency of the abnormal data.

【技术实现步骤摘要】
一种异常数据的定位方法及装置
本专利技术属于数据定位
,尤其涉及一种异常数据的定位方法及装置。
技术介绍
在当前大数据背景下,一项数据指标可能对应多个维度,每个维度又分别包括多项细分项。由于每项数据指标包括的数据非常多,因此,对每项数据指标中异常数据的定位变得很困难。以广告收入为例,广告收入这一数据指标对应的维度包括播放平台、广告主和播放器。播放平台包括多个不同的平台即多个平台细分项,每个平台细分项分别对应此平台下的广告收入数据。广告主包括多个不同的广告主即多个广告主细分项,每个广告主细分项分别对应此广告主的广告收入数据。播放器包括多个不同的播放器即多个播放器细分项,每个播放器细分项分别对应此播放器的广告收入数据。对广告收入中的异常数据进行定位的方式是:分别查找每一个维度的数据,然后根据经验人为地分析到底是哪个维度出现了问题,确定存在异常数据的维度,再分析是此维度下哪个细分项存在异常。现有技术中,在对异常数据定位的过程中,是通过人为的方式逐一查找每个维度下的数据,这种异常数据定位的方式效率低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种异常数据的定位方法及装置,用于提高异本文档来自技高网...
一种异常数据的定位方法及装置

【技术保护点】
一种异常数据的定位方法,其特征在于,所述定位方法包括:获取待定位数据指标对应的所有维度;根据所述所有维度,获取与每个维度对应的维度数据和历史维度数据;其中,所述维度数据包括至少一项细分项数据,所述历史维度数据包括至少一项历史细分项数据;利用所述每个维度的所述维度数据中包括的细分项数据,构建第一向量,利用所述历史维度数据中包括的历史细分项数据,构建第二向量;计算所述每个维度的所述第一向量和所述第二向量之间的相似度,以得到所述每个维度的相似度;比较所述所有维度的相似度,确定相似度最小值;定位所述相似度最小值对应的维度。

【技术特征摘要】
1.一种异常数据的定位方法,其特征在于,所述定位方法包括:获取待定位数据指标对应的所有维度;根据所述所有维度,获取与每个维度对应的维度数据和历史维度数据;其中,所述维度数据包括至少一项细分项数据,所述历史维度数据包括至少一项历史细分项数据;利用所述每个维度的所述维度数据中包括的细分项数据,构建第一向量,利用所述历史维度数据中包括的历史细分项数据,构建第二向量;计算所述每个维度的所述第一向量和所述第二向量之间的相似度,以得到所述每个维度的相似度;比较所述所有维度的相似度,确定相似度最小值;定位所述相似度最小值对应的维度。2.根据权利要求1所述的定位方法,其特征在于,所述计算每个维度的所述第一向量和所述第二向量之间的相似度,得到每个维度的相似度,包括:计算每个维度的所述第一向量和所述第二向量之间的余弦夹角值;根据所述余弦夹角值,确定每个维度的所述第一向量和所述第二向量之间的相似度。3.根据权利要求1或2所述的定位方法,其特征在于,所述利用每个维度的所述维度数据中包括的细分项数据,构建第一向量,利用所述历史维度数据中包括的历史细分项数据,构建第二向量,包括:判断每个维度的所述维度数据中包括的细分项数据的个数与所述历史维度数据中包括的历史细分项数据的个数是否相同;若细分项数据的个数与历史细分项数据的个数相同,则利用每个维度的所述维度数据中包括的细分项数据,构建第一向量,利用所述历史维度数据中包括的历史细分项数据,构建第二向量。4.根据权利要求3所述的定位方法,其特征在于,还包括:若细分项数据的个数与历史细分项数据的个数不同,则根据所述维度数据包括的细分项数据,分别查找与每个细分项数据对应的细分项,得到由所述细分项组成的细分项集合;根据所述历史维度数据包括的历史细分项数据,分别查找与每个历史细分项数据对应的历史细分项,得到由所述历史细分项组成的历史细分项集合比较所述细分项集合和所述历史细分项集合;将所述历史细分项集合中区别于所述细分项集合的细分项加入到所述细分项集合中,其中,加入到所述细分项集合中的细分项对应的细分项数据为0;利用加入细分项后的所述细分项集合对应的细分项数据,构建新的第一向量;将所述细分项集合中区别于所述历史细分项集合的细分项加入到所述历史细分项集合中,其中,加入到所述历史细分项集合中的细分项对应的细分项数据为0;利用加入细分项后的所述历史细分项集合对应的细分项数据,构建新的第二向量。5.一种异常数据的定位装置,其特征在于,所述定位装置包括:第一获取单元,用于获取待定位数据指标对应...

【专利技术属性】
技术研发人员:周双志周葳
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1