数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法技术

技术编号:5222137 阅读:389 留言:0更新日期:2012-04-11 18:40
一种数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法,包括以下步骤:1)计算数据总体X的协方差矩阵S;2)根据实对称矩阵的谱分解理论;3)构造权值矩阵M,N,具体过程如下:①构造n??n矩阵M;②构造n??n矩阵N;4)计算协方差阵S的加权Moore-Penrose逆矩阵;5)计算数据个体Xi,Xj之间的马氏距离。本发明专利技术提供了一种不受量纲影响(具有线性变换不变性)、保持数据均值和方差信息、并在处理任何相关性数据时都能确保正常进行且性能更高的数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法。

【技术实现步骤摘要】

本专利技术涉及数据挖掘过程
,尤其是-氏距离测定方法。4中处理有限相关性数据集的W MP马
技术介绍
随着企业或行业的业务数据不断积累,形成了海量数据集。如果单靠人工去整理 或理解如此庞大的数据源已存在效率和准确性等问题。因此,越来越多企业正通过数据挖 掘技术来解决海量数据的整理和知识发现问题,并为企业决策提供支持。而数据预处理大 约占了整个数据挖掘过程60%-70%的工作量,并对数据挖掘的结果起着至关重要的作用。 数据预处理中很重要的一步工作便是对原始数据中的缺损数据进行填补。在缺损值补值的 过程中,距离测定方法是最重要的技术,如数据相似度判断等;另外,距离测定方法也被用 于聚类分析、分类分析等数据挖掘最终过程。在神经网络、模式识别、信号处理、图像处理等 领域,距离的测定方法也有广泛应用。本专利技术涉及的数据集假设如下设X” X2, ...,Xm为m个数据个体,其中不=(xn, Xixin), i=l, 2,...,m,而 n 为数据个体不的属性个数,则数据总体可表示为X=(Xi,X2,…,Xm)T,即

【技术保护点】
一种数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法,其特征在于:设定若a为一向量或矩阵,则a↑[T]表示a的转置;设X↓[1],X↓[2],…,X↓[m]为m个数据个体,其中X↓[i]=(x↓[i1],x↓[i2],……,x↓[in]),i=1,2,…,m,n为数据个体X↓[i]的属性个数,则数据总体可表示为X=(X↓[1],X↓[2],…,X↓[m])↑[T],即:X=[***]所述测定方法包括以下步骤:1)计算数据总体X的协方差矩阵S,S=1/(m-1)∑↓[i-1]↑[m](X↓[i]-μ)↑[T](X↓[i]-μ)其中,μ=1/m∑↓[i-1]↑[m]X↓[i],S为n??n矩阵;2)根据实对称矩阵的谱分解理论,将协方差矩阵S展开为:S=λ↓[1]e↓[1]e↓[1]↑[T]+λ↓[2]e↓[2]e↓[2]↑[T]+……+λ↓[n]e↓[n]e↓[n]↑[T]其中,λ↓[i]为S的第i个特征值,e↓[i]为对应的n维标准化特征向量,即列向量,i=1,2,…,n , 且当i≠j时,e↓[i]↑[T]e↓[j]=0;3)构造权值矩阵M,N,具体过程如下:①构造n??n矩阵MM=α↓[1]e↓[1]e↓[1]↑[T]+α↓[2]e↓[2]e↓[2]↑[T]+……+α↓[n]e↓[n]e↓[n]↑[T]其中a↓[i]>0,为λ↓[i]+*{λ↓[j]}+1标准化后的值,i=1,2,…,n,即α↓[i]=(λ↓[i]+|*{λ↓[j]}|+1)/(*(λ↓[i]+|*{λ↓[j]}|+1))而λ↓[i]为S的第i个特征值,e↓[i]为对应的n维标准化特征向量,即列向量,i=1,2,…,n,且当i≠j时,e↓[i]↑[T]e↓[j]=0;②构造n??n矩阵NN=β↓[1]v↓[1]v↓[1]↑[T]+β↓[2]v↓[2]v↓[2]↑[T]+……+β↓[n]v↓[n]v↓[n]↑[T]其中,b↓[i]>0,为a↓[i]的倒数经标准化后的值,即β↓[i]=1/α↓[i]/*1/α↓[i],且n↓[i]为向量e↓[i]中各个元素取倒数后再归一化所得到的向量,如若e↓[i]=(e↓[1i],e↓[2i],…,e↓[ni])↑[T],则令v↓[i]=(v↓[1i],v↓[2i],…,v↓[ni])↑[T],***,j=1,2,…,n;4)计算协方差阵S的加权Moore-Penrose逆矩阵S↓[MN]↑...

【技术特征摘要】
一种数据挖掘过程中基于加权Moore Penrose逆的马氏距离测定方法,其特征在于设定若a为一向量或矩阵,则aT表示a的转置;设X1,X2,…,Xm为m个数据个体,其中Xi=(xi1,xi2,……,xin),i=1,2,…,m,n为数据个体Xi的属性个数,则数据总体可表示为X=(X1,X2,…,Xm)T,即所述测定方法包括以下步骤1)计算数据总体X的协方差矩阵,其中,,S为n n矩阵;2) 根据实对称矩阵的谱分解理论,将协方差矩阵展开为其中,λi为S的第i个特征值,ei为对应的n维标准化特征向量,即列向量, i=1,2,…,n , 且当i≠j时,eiTej=0;3) 构造权值矩阵M,N,具体过程如下① 构造n n矩阵M其中ai>0,为标准化后的值, i=1,2,…,n,即而λi为S的第i个特征值,ei为对应的n维标准化特征向量,即列向量, i=1,2,…,n,且当i≠j时,eiTej=0;② 构造n n矩阵N其中,bi>0,为ai的倒数经标准化后的值,即,且ni为向量ei中各个元素取倒数后再归一化所得到的向量,如若ei=(e1i,e2i,…,eni)T,则令vi=(v1i,v2i,…,vni)T,,j=1,2,…,n;4) 计算协方差阵S的加权Moore Penrose逆矩阵 其中,,, 令, 将其进行奇异值分解,可得表达式=UHVT,其中为n阶对角矩阵,∑=diag(a1,a2,...,ar),ai> 0,r是矩阵的秩,U、V为n阶正交阵;而;5) 计算数据个体Xi,Xj之间的马氏距离其中,表示对矩阵的元素进行取模运算,即对于中的每一个元素sij,若sij为实数则保持不变;若sij为复数则取其模。2010105313108100001dest_path_ima...

【专利技术属性】
技术研发人员:黄德才陈欢陆亿红沈雯燕
申请(专利权)人:浙江工业大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1