一种基于DWH模型对多关系型数据的多角度度量学习方法技术

技术编号:18895749 阅读:18 留言:0更新日期:2018-09-08 11:33
本发明专利技术公开了一种基于DWH模型对多关系型数据的多角度度量学习方法,包括下述步骤:首先从数据集中选取多关系型数据,对所述多关系型数据进行预处理;定义距离一个距离度量形式并进行距离度量学习;然后采用DWH模型完成不同角度的原始样本集到特征向量的映射,并通过学习稀疏系数向量,得到不同的距离度量矩阵M;再利用KNN算法和距离度量矩阵M进行分类验证,并判断分类效果的好坏;最后根据多关系型数据的分类结果进行调参。本发明专利技术的方法建立在分类模型前,对高维数据在保留数据簇结构的情况下进行特征选择,特征提取,从一定程度上减少了或者解决了维度灾难给数据分类带来的负面影响,并且本发明专利技术的方法能够提升分类速度和分类精确度。

A multi angle metric learning method for multi relational data based on DWH model

The invention discloses a multi-angle measurement learning method for multi-relational data based on DWH model, which comprises the following steps: firstly, selecting multi-relational data from the data set, preprocessing the multi-relational data, defining a distance measurement form and learning the distance measurement, and then adopting the DWH model to complete the study. Mapping the original sample set from different angles to the eigenvector, and learning the sparse coefficient vector, we get different distance measurement matrix M. Then we use KNN algorithm and distance measurement matrix M to classify and verify the classification effect, and judge the classification effect. Finally, we use the classification results of multi-relational data to adjust parameters. The method of the invention is based on the classification model, which selects the features of the high-dimensional data while retaining the structure of the data cluster. The feature extraction can reduce or solve the negative impact of the dimension disaster on the data classification to a certain extent, and the method of the invention can improve the classification speed and classification accuracy.

【技术实现步骤摘要】
一种基于DWH模型对多关系型数据的多角度度量学习方法
本专利技术涉及数据挖掘
,特别涉及一种基于DWH模型对多关系型数据的多角度度量学习方法。
技术介绍
多关系型数据,作为传统关系型数据一种延伸,随着社交媒体的增长发展迅速,数据量成几何倍数爆炸式增长,因此在此类数据的基础上学习一个好的距离度量函数对于数据挖掘,机器学习应用方面有着非常重要的意义,其中就包括信息检索,聚类,分类,推荐系统等。在传统观念里,因为数据结构的关系,我们不能直接使用欧式距离或者是马氏距离来对数据直接进行度量计算。因此我们需要定义一个好的方式来结合关系型数据结构还有结点的特征,从不同的观察角度来发现信息和我们所需的内容,因此多角度学习似乎能够很好的解决这个问题。现在已经提出了一些关于多角度度量学习的方法,但是主要针对关系型数据的研究寥寥无几,几乎都是针对图像视频的研究比较多。我们在此基础上,主要针对关系型数据和多角度度量学习的进行了研究,针对高维数据分类聚类问题,传统的方法是对原始数据进行一个数据清洗,其中包括数据处理,数据分析,还有特征选择,特征提取,之后才是建立模型。然而在一般情况下我们首先要对提取的特征进行一个重要性的排序,因为对高维数据的特征我们有一个自己的评判标准,但是这个过程中往往忽略了不同特征之间可能有相关性,而且可能放大了微小变量的影响,因此不能产生最优的特征子集,从而不能得到最优的分类聚类结果。
技术实现思路
本专利技术的目的在于克服现有技术中的缺点与不足,提供一种基于DWH模型对多关系型数据的多角度度量学习方法,基于Dual-wingHarmonium模型采取维度压缩策略,将数据特征集合映射到一个新的空间,提供了一种能在保留数据簇结构的情况下,进行特征选择并建立模型分类的方法,提升了分类速度和分类精确度。为实现以上目的,本专利技术采取如下技术方案:一种基于DWH模型对多关系型数据的多角度度量学习方法,包括以下步骤:S1、从数据集中选取多关系型数据,对所述多关系型数据进行预处理,并进行特征提取、特征选择和归一化,得到样本数据集;S2、定义一个距离度量形式,M为距离度量矩阵,且为半正定对阵矩阵;S3、采用距离度量学习来寻求一个度量矩阵M,使得样本两两之间的距离表示为S4、建立DWH模型,对于原始数据集进行压缩,将原高维空间嵌入到一个低维空间中,并利用已建立的DWH模型在低维空间中进行学习任务,通过度量学习试图去学习出一个距离度量来等效降维的效果,具体利用对样本数据集的特征选择和特征提取,选取不同的特征集合进行子空间学习,来得到不同的距离度量矩阵M;S5、用KNN算法对步骤S4中得到的距离度量矩阵M来进行分类验证,并判断分类效果的好坏;S6、通过步骤S5中的实验分类效果对样本数据集的特征属性每个维度的重要性,根据每个特征属性和目标属性之间的计算值对样本数据集的关系型数据的特征属性进行排序。作为优选的技术方案,所述步骤S1的数据集包括UW_std,Mondial_std,Mutagenesis_std,Financial,Movielens五个数据集。作为优选的技术方案,步骤S1中,对所述多关系型数据进行预处理,具体是利用python对多关系型数据进行关键字提取。作为优选的技术方案,在步骤S4具体包括下述步骤:S41、建立DWH模型:在Dual-wingHarmonium模型的拓扑结构里,输入结点有两个模态x={xi},z={zj}和一系列的映射空间结点h={hk},根据所述的拓扑结构作出三个条件独立性假设,其条件概率密度表达式为:①给定一个映射空间变量h,原始数据集的模态x和z是相互独立的,p(x,z|h)=p(x|h)p(z|h)②给定原始数据集的模态x和z,映射空间的变量h也是相互独立的,p(h|x,z)=Πkp(hk|x,z)③给定一个映射空间变量h,在每个模态中的每个结点即特征属性也是相互独立的,p(x|h)=Πip(xi|h),p(z|h)=Πjp(zj|h),假设所有的观察到和映射后空间的变量都是指数系,得到每个属性参数以及潜在映射空间里每个属性的概率密度函数:其中,θi,ηj,λk表示每个结点即属性参数,i,j,k表示对应DWH模型中每个view里的结点编号;T表示矩阵的转置;表示充分统计量;A(·),B(·),C(·)表示对数分割函数;通过引入附加项将对数域中的随机变量耦合起来得到联合概率分布:其中,定义单个结点组成的簇上的势函数;φ(xi)ψ(hk),表示由成对链结点组成的簇上的势函数;表示在实际DWH模型计算中势函数的权重;S42、将建立的DWH模型应用在学习一个多模态的距离度量矩阵M,给定一个数据点y=(x,z),包含两个特征模态x和z,在DWH模型框架下,将数据点y映射到一个新的映射空间并且得到其新的表示形式t,即t为新的距离度量,t是Θ的函数:t=Εp(h|x,z;Θ)[h]其中,t是将数据点y=(x,z)嵌入在共享的潜在映射空间中的潜在表示形式;Θ表示DWH模型中所有的参数表示在实际模型计算中势函数的权重;h表示隐藏单元结点,从语义上看,隐藏单元结点h看作是潜在关键词的结合,从不同的源观察反映出从不同的角度学习得到不同的中心主题;S43、用欧式距离来衡量新的映射空间里数据点之间的距离,定义S={(y(i),y(j))}为相似数据对集合,D={(y(i),y(j))}为不相似的数据对集合,最优化问题如下:其中y表示所有出现在S和D的数据;再结合距离度量学习和最大似然估计,将最优化问题改写为如下形式:其中,L(y;Θ)是根据参数Θ参数化的数据y的负对数似然值,λ是权重参数,|·|表示集合的基数;用hingeloss处理约束条件得到新的最优化问题:对于参数θi、ηj、λk,通过求其次梯度求解:通过计算目标函数来得到最优解:作为优选的技术方案,步骤S5中,所述分类验证是通过crossvalidation进行验证,将crossvalidation验证的分数即正确率,作为衡量分类效果的好坏。作为优选的技术方案,步骤S4中,采用Welch’st-Test来判断所述特征属性和目标属性之间分布的均值方差距离,具体公式如下:其中t表示均值方差距离;和分别表示特征属性的平均值和方差;和分别表示目标属性的平均值和方差;N1、N2分别表示对应特征属性和目标属性的样本大小;然后再通过对t值大小的排序,对关系型数据的特征属性进行一个排序。本专利技术相对于现有技术具有如下的优点和效果:(1)本专利技术的多角度度量学习方法,针对传统的多关系型高维数据分类方法在特征选择,特征提取的过程中,忽略了不同特征之间可能存在关联从而引起的分类准确度下降的问题,在此基础上我们对每个特征属性,特征变量赋权值,将各指标或各变量差分看待,同时在此基础上,计算各维度沿每个特征向量的相关系数,得到每个维度对于样本数据集的相关系数,将得到的每个维度对于样本数据集的相关系数从大到小进行排序,选择相关系数较大的维度,完成样本数据集的特征选择。(2)本专利技术的多角度度量学习方法,基于Dual-wingHarmonium模型采取维度压缩策略,将数据特征集合映射到一个新的空间,提供了一种能在保留数据簇结构的情况下,进行特征选择并建立模型分类的方法,提升了分类速度和本文档来自技高网...

【技术保护点】
1.一种基于DWH模型对多关系型数据的多角度度量学习方法,其特征在于,包括以下步骤:S1、从数据集中选取多关系型数据,对所述多关系型数据进行预处理,并进行特征提取、特征选择和归一化,得到样本数据集;S2、定义一个距离度量形式,

【技术特征摘要】
1.一种基于DWH模型对多关系型数据的多角度度量学习方法,其特征在于,包括以下步骤:S1、从数据集中选取多关系型数据,对所述多关系型数据进行预处理,并进行特征提取、特征选择和归一化,得到样本数据集;S2、定义一个距离度量形式,M为距离度量矩阵,且为半正定对阵矩阵;S3、采用距离度量学习来寻求一个度量矩阵M,使得样本两两之间的距离表示为S4、建立DWH模型,对于原始数据集进行压缩,将原高维空间嵌入到一个低维空间中,并利用已建立的DWH模型在低维空间中进行学习任务,通过度量学习试图去学习出一个距离度量来等效降维的效果,具体利用对样本数据集的特征选择和特征提取,选取不同的特征集合进行子空间学习,来得到不同的距离度量矩阵M;S5、用KNN算法对步骤S4中得到的距离度量矩阵M来进行分类验证,并判断分类效果的好坏;S6、通过步骤S5中的实验分类效果对样本数据集的特征属性每个维度的重要性,根据每个特征属性和目标属性之间的计算值对样本数据集的关系型数据的特征属性进行排序。2.根据权利要求1所述的基于DWH模型对多关系型数据的多角度度量学习方法,其特征在于,所述步骤S1的数据集包括UW_std,Mondial_std,Mutagenesis_std,Financial,Movielens五个数据集。3.根据权利要求1所述的基于DWH模型对多关系型数据的多角度度量学习方法,其特征在于,步骤S1中,对所述多关系型数据进行预处理,具体是利用python对多关系型数据进行关键字提取。4.根据权利要求1所述的基于DWH模型对多关系型数据的多角度度量学习方法,其特征在于,在步骤S4具体包括下述步骤:S41、建立DWH模型:在Dual-wingHarmonium模型的拓扑结构里,输入结点有两个模态x={xi},z={zj}和一系列的映射空间结点h={hk},根据所述的拓扑结构作出三个条件独立性假设,其条件概率密度表达式为:①给定一个映射空间变量h,原始数据集的模态x和z是相互独立的,p(x,z|h)=p(x|h)p(z|h)②给定原始数据集的模态x和z,映射空间的变量h也是相互独立的,p(h|x,z)=Πkp(hk|x,z)③给定一个映射空间变量h,在每个模态中的每个结点即特征属性也是相互独立的,p(x|h)=Πip(xi|h),p(z|h)=Πjp(zj|h),假设所有的观察到和映射后空间的变量都是指数系,得到每个属性参数以及潜在映射空间里每个属性的概率密度函数:其中,θi,ηj,λk表示每个结点...

【专利技术属性】
技术研发人员:杨克陆璐
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1