一种基于DWH模型对多关系型数据的多角度度量学习方法技术

技术编号：18895749 阅读：18 留言：0更新日期：2018-09-08 11:33

本发明专利技术公开了一种基于DWH模型对多关系型数据的多角度度量学习方法，包括下述步骤：首先从数据集中选取多关系型数据，对所述多关系型数据进行预处理；定义距离一个距离度量形式并进行距离度量学习；然后采用DWH模型完成不同角度的原始样本集到特征向量的映射，并通过学习稀疏系数向量，得到不同的距离度量矩阵M；再利用KNN算法和距离度量矩阵M进行分类验证，并判断分类效果的好坏；最后根据多关系型数据的分类结果进行调参。本发明专利技术的方法建立在分类模型前，对高维数据在保留数据簇结构的情况下进行特征选择，特征提取，从一定程度上减少了或者解决了维度灾难给数据分类带来的负面影响，并且本发明专利技术的方法能够提升分类速度和分类精确度。

A multi angle metric learning method for multi relational data based on DWH model

The invention discloses a multi-angle measurement learning method for multi-relational data based on DWH model, which comprises the following steps: firstly, selecting multi-relational data from the data set, preprocessing the multi-relational data, defining a distance measurement form and learning the distance measurement, and then adopting the DWH model to complete the study. Mapping the original sample set from different angles to the eigenvector, and learning the sparse coefficient vector, we get different distance measurement matrix M. Then we use KNN algorithm and distance measurement matrix M to classify and verify the classification effect, and judge the classification effect. Finally, we use the classification results of multi-relational data to adjust parameters. The method of the invention is based on the classification model, which selects the features of the high-dimensional data while retaining the structure of the data cluster. The feature extraction can reduce or solve the negative impact of the dimension disaster on the data classification to a certain extent, and the method of the invention can improve the classification speed and classification accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DWH模型对多关系型数据的多角度度量学习方法
本专利技术涉及数据挖掘
，特别涉及一种基于DWH模型对多关系型数据的多角度度量学习方法。
技术介绍
多关系型数据，作为传统关系型数据一种延伸，随着社交媒体的增长发展迅速，数据量成几何倍数爆炸式增长，因此在此类数据的基础上学习一个好的距离度量函数对于数据挖掘，机器学习应用方面有着非常重要的意义，其中就包括信息检索，聚类，分类，推荐系统等。在传统观念里，因为数据结构的关系，我们不能直接使用欧式距离或者是马氏距离来对数据直接进行度量计算。因此我们需要定义一个好的方式来结合关系型数据结构还有结点的特征，从不同的观察角度来发现信息和我们所需的内容，因此多角度学习似乎能够很好的解决这个问题。现在已经提出了一些关于多角度度量学习的方法，但是主要针对关系型数据的研究寥寥无几，几乎都是针对图像视频的研究比较多。我们在此基础上，主要针对关系型数据和多角度度量学习的进行了研究，针对高维数据分类聚类问题，传统的方法是对原始数据进行一个数据清洗，其中包括数据处理，数据分析，还有特征选择，特征提取，之后才是建立模型。然而在一般情况下我们首先要对提取的特征进行一个重要性的排序，因为对高维数据的特征我们有一个自己的评判标准，但是这个过程中往往忽略了不同特征之间可能有相关性，而且可能放大了微小变量的影响，因此不能产生最优的特征子集，从而不能得到最优的分类聚类结果。
技术实现思路
本专利技术的目的在于克服现有技术中的缺点与不足，提供一种基于DWH模型对多关系型数据的多角度度量学习方法，基于Dual-wingHarmonium模型采取维度...

【技术保护点】
1.一种基于DWH模型对多关系型数据的多角度度量学习方法，其特征在于，包括以下步骤：S1、从数据集中选取多关系型数据，对所述多关系型数据进行预处理，并进行特征提取、特征选择和归一化，得到样本数据集；S2、定义一个距离度量形式,

【技术特征摘要】
1.一种基于DWH模型对多关系型数据的多角度度量学习方法，其特征在于，包括以下步骤：S1、从数据集中选取多关系型数据，对所述多关系型数据进行预处理，并进行特征提取、特征选择和归一化，得到样本数据集；S2、定义一个距离度量形式,M为距离度量矩阵，且为半正定对阵矩阵；S3、采用距离度量学习来寻求一个度量矩阵M，使得样本两两之间的距离表示为S4、建立DWH模型，对于原始数据集进行压缩，将原高维空间嵌入到一个低维空间中，并利用已建立的DWH模型在低维空间中进行学习任务，通过度量学习试图去学习出一个距离度量来等效降维的效果，具体利用对样本数据集的特征选择和特征提取，选取不同的特征集合进行子空间学习，来得到不同的距离度量矩阵M；S5、用KNN算法对步骤S4中得到的距离度量矩阵M来进行分类验证，并判断分类效果的好坏；S6、通过步骤S5中的实验分类效果对样本数据集的特征属性每个维度的重要性，根据每个特征属性和目标属性之间的计算值对样本数据集的关系型数据的特征属性进行排序。2.根据权利要求1所述的基于DWH模型对多关系型数据的多角度度量学习方法，其特征在于，所述步骤S1的数据集包括UW_std，Mondial_std，Mutagenesis_std，Financial，Movielens五个数据集。3.根据权利要求1所述的基于DWH模型对多关系型数据的多角度度量学习方法，其特征在于，步骤S1中，对所述多关系型数据进行预处理，具体是利用python对多关系型数据进行关键字提取。4.根据权利要求1所述的基于DWH模型对多关系型数据的多角度度量学习方法，其特征在于，在步骤S4具体包括下述步骤：S41、建立DWH模型：在Dual-wingHarmonium模型的拓扑结构里，输入结点有两个模态x＝{xi},z＝{zj}和一系列的映射空间结点h＝{hk}，根据所述的拓扑结构作出三个条件独立性假设，其条件概率密度表达式为：①给定一个映射空间变量h，原始数据集的模态x和z是相互独立的，p(x,z|h)＝p(x|h)p(z|h)②给定原始数据集的模态x和z，映射空间的变量h也是相互独立的，p(h|x,z)＝Πkp(hk|x,z)③给定一个映射空间变量h，在每个模态中的每个结点即特征属性也是相互独立的，p(x|h)＝Πip(xi|h),p(z|h)＝Πjp(zj|h),假设所有的观察到和映射后空间的变量都是指数系，得到每个属性参数以及潜在映射空间里每个属性的概率密度函数：其中，θi,ηj,λk表示每个结点...

【专利技术属性】
技术研发人员：杨克，陆璐，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人