数据挖掘过程中基于加权Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ逆的马氏距离测定方法技术

技术编号：5222137 阅读：389 留言：0更新日期：2012-04-11 18:40

一种数据挖掘过程中基于加权Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ逆的马氏距离测定方法，包括以下步骤：１）计算数据总体Ｘ的协方差矩阵Ｓ；２）根据实对称矩阵的谱分解理论；３）构造权值矩阵Ｍ，Ｎ，具体过程如下：①构造ｎ？？ｎ矩阵Ｍ；②构造ｎ？？ｎ矩阵Ｎ；４）计算协方差阵Ｓ的加权Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ逆矩阵；５）计算数据个体Ｘｉ，Ｘｊ之间的马氏距离。本发明专利技术提供了一种不受量纲影响（具有线性变换不变性）、保持数据均值和方差信息、并在处理任何相关性数据时都能确保正常进行且性能更高的数据挖掘过程中基于加权Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ逆的马氏距离测定方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘过程
，尤其是-氏距离测定方法。4中处理有限相关性数据集的W MP马
技术介绍
随着企业或行业的业务数据不断积累，形成了海量数据集。如果单靠人工去整理或理解如此庞大的数据源已存在效率和准确性等问题。因此，越来越多企业正通过数据挖掘技术来解决海量数据的整理和知识发现问题，并为企业决策提供支持。而数据预处理大约占了整个数据挖掘过程60%-70%的工作量，并对数据挖掘的结果起着至关重要的作用。数据预处理中很重要的一步工作便是对原始数据中的缺损数据进行填补。在缺损值补值的过程中，距离测定方法是最重要的技术，如数据相似度判断等；另外，距离测定方法也被用于聚类分析、分类分析等数据挖掘最终过程。在神经网络、模式识别、信号处理、图像处理等领域，距离的测定方法也有广泛应用。本专利技术涉及的数据集假设如下设X” X2, ...，Xm为m个数据个体，其中不=(xn, Xixin), i=l, 2，...，m,而 n 为数据个体不的属性个数，则数据总体可表示为X=(Xi，X2,…，Xm)T，即

【技术保护点】
一种数据挖掘过程中基于加权Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ逆的马氏距离测定方法，其特征在于：设定若ａ为一向量或矩阵，则ａ↑［Ｔ］表示ａ的转置；设Ｘ↓［１］，Ｘ↓［２］，…，Ｘ↓［ｍ］为ｍ个数据个体，其中Ｘ↓［ｉ］＝（ｘ↓［ｉ１］，ｘ↓［ｉ２］，……，ｘ↓［ｉｎ］），ｉ＝１，２，…，ｍ，ｎ为数据个体Ｘ↓［ｉ］的属性个数，则数据总体可表示为Ｘ＝（Ｘ↓［１］，Ｘ↓［２］，…，Ｘ↓［ｍ］）↑［Ｔ］，即：Ｘ＝［＊＊＊］所述测定方法包括以下步骤：１）计算数据总体Ｘ的协方差矩阵Ｓ，Ｓ＝１／（ｍ－１）∑↓［ｉ－１］↑［ｍ］（Ｘ↓［ｉ］－μ）↑［Ｔ］（Ｘ↓［ｉ］－μ）其中，μ＝１／ｍ∑↓［ｉ－１］↑［ｍ］Ｘ↓［ｉ］，Ｓ为ｎ？？ｎ矩阵；２）根据实对称矩阵的谱分解理论，将协方差矩阵Ｓ展开为：Ｓ＝λ↓［１］ｅ↓［１］ｅ↓［１］↑［Ｔ］＋λ↓［２］ｅ↓［２］ｅ↓［２］↑［Ｔ］＋……＋λ↓［ｎ］ｅ↓［ｎ］ｅ↓［ｎ］↑［Ｔ］其中，λ↓［ｉ］为Ｓ的第ｉ个特征值，ｅ↓［ｉ］为对应的ｎ维标准化特征向量，即列向量，ｉ＝１，２，…，ｎ　，　且当ｉ≠ｊ时，ｅ↓［ｉ］↑［Ｔ］ｅ↓［ｊ］＝０；３）构造权值矩阵Ｍ，Ｎ，具体过程如下：①构造...

【技术特征摘要】
一种数据挖掘过程中基于加权Moore Penrose逆的马氏距离测定方法，其特征在于设定若a为一向量或矩阵，则aT表示a的转置；设X1,X2,…,Xm为m个数据个体，其中Xi=(xi1,xi2,……,xin)，i=1,2,…,m，n为数据个体Xi的属性个数，则数据总体可表示为X=(X1,X2,…,Xm)T，即所述测定方法包括以下步骤1)计算数据总体X的协方差矩阵，其中，，S为n n矩阵；2) 根据实对称矩阵的谱分解理论，将协方差矩阵展开为其中，λi为S的第i个特征值，ei为对应的n维标准化特征向量，即列向量， i=1,2,…,n , 且当i≠j时，eiTej=0；3) 构造权值矩阵M,N，具体过程如下① 构造n n矩阵M其中ai>0，为标准化后的值， i=1,2,…,n，即而λi为S的第i个特征值，ei为对应的n维标准化特征向量，即列向量， i=1,2,…,n，且当i≠j时，eiTej=0；② 构造n n矩阵N其中，bi>0，为ai的倒数经标准化后的值，即，且ni为向量ei中各个元素取倒数后再归一化所得到的向量，如若ei=(e1i,e2i,…,eni)T，则令vi=(v1i,v2i,…,vni)T，，j=1,2,…,n；4) 计算协方差阵S的加权Moore Penrose逆矩阵其中，,，令, 将其进行奇异值分解，可得表达式=UHVT，其中为n阶对角矩阵，∑=diag(a1,a2,...,ar)，ai> 0，r是矩阵的秩，U、V为n阶正交阵；而；5) 计算数据个体Xi，Xj之间的马氏距离其中，表示对矩阵的元素进行取模运算，即对于中的每一个元素sij，若sij为实数则保持不变；若sij为复数则取其模。2010105313108100001dest_path_ima...

【专利技术属性】
技术研发人员：黄德才，陈欢，陆亿红，沈雯燕，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：86[中国|杭州]

全部详细技术资料下载我是这个专利的主人