一种稀疏数据异常检测方法及装置制造方法及图纸

技术编号:16644595 阅读:52 留言:0更新日期:2017-11-26 16:59
本发明专利技术公开了一种稀疏数据异常检测方法及装置,所述方法包括:对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;根据所述非线性流形模型,计算数据对象的异常值得分;根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。

A sparse data anomaly detection method and device

The invention discloses a method and a device for anomaly detection of sparse data, the method comprises the following steps: the raw data of different types of features, the original data of the different types of sparse data into a unified format; using factor decomposition machine to the sparse data modeling, nonlinear manifold model; according to the nonlinear manifold model, abnormal scores value calculation of data objects; according to the score of the abnormal value of the data object, determining that the data objects are abnormal data.

【技术实现步骤摘要】
一种稀疏数据异常检测方法及装置
本专利技术涉及异常检测
,尤其涉及一种基于因子分解机的稀疏数据异常检测方法及装置。
技术介绍
异常检测主要基于Kawkins对异常的定义:异常是远离其他观测数据进而怀疑为不同机制产生的数据。高效准确地检测异常对于入侵检测、欺诈检测以及故障检测等领域具有重要意义。异常检测已经得到了广泛地研究,大多数方法都是针对传统的非稀疏性的数据。但是实际场景中,很多数据都呈现稀疏特性:(1)短文本数据:近年来,随着社交媒体的发展,短文本数据的分析挖掘得到越来越多的重视,由于单个文本中的单词数量有限,推断文本的异常特性变得极具挑战。(2)拥有“大域”属性的分类型数据:此类数据中每个属性包含的不同值数量巨大,可通过二值化过程转换成极度稀疏的数据,因此该类数据是一种间接的稀疏数据。不同属性值数量巨大,数据集中的属性值出现次数有限,难以形成可用的模式,因此如何挖掘属性值之间隐含的关系对推断数据对象的异常特性具有重要意义。例如,电影信息包含三个属性:男演员、女演员以及电影类型。如果男演员A和女演员B经常演同一类型的电影,虽然A和B从未合作过,但后来一次A和B的合作不应该看本文档来自技高网...
一种稀疏数据异常检测方法及装置

【技术保护点】
一种稀疏数据异常检测方法,其特征在于,所述方法包括:对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;根据所述非线性流形模型,计算数据对象的异常值得分;根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。

【技术特征摘要】
1.一种稀疏数据异常检测方法,其特征在于,所述方法包括:对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;根据所述非线性流形模型,计算数据对象的异常值得分;根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。2.根据权利要求1所述的稀疏数据异常检测方法,其特征在于,所述对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据,包括:分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理,得到n行d列的数据集其中3.根据权利要求2所述的稀疏数据异常检测方法,其特征在于,所述采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型,包括:采用因子分解机对所述数据集进行建模,使所述数据集位于非线性流形上,得到的非线性流形模型为:其中,g是全局参数;b1,...,bd是特定属性参数;是属性值zpi和zpj的隐含关系权重,其中是一个k维向量。4.根据权利要求3所述的稀疏数据异常检测方法,其特征在于,所述根据所述非线性流形模型,计算数据对象的异常值得分,包括根据所述非线性流形模型,计算数据对象的异常值得分为:其中,对于文本数据,LQ(Zp)等于所有文本的平均单词个数除以该文本的单词个数;而对于分类型数据和数值型数据,LQ(Zp)等于1。5.根据权利要求2所述的稀疏数据异常检测方法,其特征在于,所述分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理,包括:针对所述分类型数据,对每个分类型属性中的每个值创建一个二值属性,所述二值属性的值是0或1;其中,如果一个数据对象中包含所述二值属性,则该数据对象对应于所述二值属性上的值为1,否则为0;针对所述短文本数据,为每个不同的关键词创建一个属性;其中,如果一个文本包含r个关键词,则在每个关键词属性上的值为在其他词属性上的值为0;针对所述数值型数据,对原始数据集中每个属性i执行以下操作:计算平均值ui和标准差σi,将范围(ui-σi,ui+σi)平分成Φ个区间;为每个区间创建一个属性,如果一个数据对象第i个属性的值位于其中的一个区间,则该区间的属性值为1,否则为0;如果一个数据对象第i个属性的值xi小于ui-σi,则创建一个属性,其属性值为|xi-(ui-σi)|/...

【专利技术属性】
技术研发人员:马帅朱孟笑张晖怀进鹏
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1