有标签高维数据的最优投影集合方法及情感文本分类方法技术

技术编号：24799638 阅读：41 留言：0更新日期：2020-07-07 21:03

本发明专利技术公开了一种有标签高维数据的最优投影集合方法，包括获取需要投影的有标签高维数据的所有类别对；计算类别对之间的类别对可分离向量空间；对可分离高维空间范围求交集得到可分离向量空间的交空间；选取可分离向量空间的交空间中的轴组成二维投影集合并得到最终的最优投影集合。本发明专利技术还公开了包括所述有标签高维数据的最优投影集合方法的情感文本分类方法。本发明专利技术通过类别对可分离向量空间的交集选取交空间中的轴组成二维投影集合，来组成最终的有标签高维数据的最优投影集合，因此本发明专利技术方法能够有效帮助呈现有标签高维数据中的类别信息，而且可靠性高，实用性好。

全部详细技术资料下载

【技术实现步骤摘要】
有标签高维数据的最优投影集合方法及情感文本分类方法
本专利技术属于数据处理领域，具体涉及一种有标签高维数据的最优投影集合方法及其情感文本分类方法。
技术介绍
随着数字化社会的发展，高维数据已经成为人们生产和生活中不可缺少的部分。有标签的高维数据是高维数据的重要组成部分，涉及现代社会多个应用领域，例如信息检索、图像识别、计算生物学和文本挖掘等。发掘和呈现类别信息是分析有标签高维数据的基本任务之一，然而该类数据的维度太高，难以从维度集合中直接获取有意义的分类信息。所以，通常人们需要先对有标签的高维数据进行降维，然后使用散点图可视化降维后的数据，帮助探索数据的类别结构。降维的基本原理是把数据样本从高维空间投影到一个低维空间，在减少数据维度的同时保持高维空间中的数据特征。根据是否需要数据标签信息，降维方法可以分为监督降维方法和无监督降维方法。对于有标签高维数据，由于无监督降维不考虑类标签，无法很好地捕捉数据的类别结构，因此通常使用监督降维方法对其进行降维。监督降维方法是高维数据处理中一个重要的研究方向，过去已经提出了许多不同的监督降维方法。线性判别分析(LDA)方法在低维空间中最大化类间的分离程度，其固有缺陷是事先假设数据符合高斯分布，核判别分析(KDA)方法可以克服LDA的固有缺陷，但没有考虑到人的感知能力。最近提出的感知驱动降维(PDD、PDK)方法考虑了人类感知，然而，由于其降维过程根据每个点计算分离度量，使得该方法的时间复杂度过高。此外，将所有类别投影到同一个视图中，容易造成类别遮挡、视觉混乱等问题，...

【技术保护点】
1.一种有标签高维数据的最优投影集合方法，包括如下步骤：/nS1.获取需要投影的有标签高维数据的所有类别对；/nS2.针对步骤S1获取的所有类别对，计算类别对之间的类别对可分离向量空间；/nS3.根据步骤S2得到的类别对可分离向量空间，对可分离高维空间范围求交集，从而得到可分离向量空间的交空间；/nS4.根据步骤S3得到的可分离向量空间的交空间，选取可分离向量空间的交空间中的轴组成二维投影集合，从而得到最终的最优投影集合。/n

【技术特征摘要】
1.一种有标签高维数据的最优投影集合方法，包括如下步骤：
S1.获取需要投影的有标签高维数据的所有类别对；
S2.针对步骤S1获取的所有类别对，计算类别对之间的类别对可分离向量空间；
S3.根据步骤S2得到的类别对可分离向量空间，对可分离高维空间范围求交集，从而得到可分离向量空间的交空间；
S4.根据步骤S3得到的可分离向量空间的交空间，选取可分离向量空间的交空间中的轴组成二维投影集合，从而得到最终的最优投影集合。

2.根据权利要求1所述的有标签高维数据的最优投影集合方法，其特征在于步骤S2所述的计算类别对之间的类别对可分离向量空间，具体为采用如下步骤计算类别对可分离向量空间：
A.根据需要投影的有标签高维数据的所有类别对，利用感知驱动的监督降维PDD方法，计算降维至一维的最优投影向量wi，从而得到所有类别对的最优投影向量集合W＝{w1,w2,...,wi,...,wm}；
B.采用基于超平面包围盒的类别对可分离向量空间的表达，对步骤A得到的最优投影向量集合进行表达，从而得到类别对可分离范围集合Bi＝{rij|j∈[1,n-1]}；其中rij为第i个类别对元素的第j维的满足阈值条件的范围；所述类别对可分离范围集合构成类别对可分离向量空间。

3.根据权利要求2所述的有标签高维数据的最优投影集合方法，其特征在于步骤S3所述的根据步骤S2得到的类别对可分离向量空间，对可分离高维空间范围求交集，从而得到可分离向量空间的交空间，具体为采用如下步骤得到可分离向量空间的交空间：
a.初始化邻接矩阵邻接矩阵G中，对角线元素为1，剩余元素均为0；
b.遍历步骤S2获取的类别对可分离范围集合Bi＝{rij|j∈[1,n-1]}：
若则步骤a中的邻接矩阵G中的元素G[i][j]＝1；否则G[i][j]＝0；
c.以步骤b获取的上三角邻接矩阵G作为可分离向量空间的交空间：
若G[i][j]＝0，表示最优投影向量wi和wj所在的两个可分离空间有交空间；
否则，表示最优投影向量wi和wj所在的两个可分离空间无交空间。

4.根据权利要求3所述的有标签高维数据的最优投影集合方法，其特征在于步骤S4所述的根据步骤S3得到的可分离向量空间的交空间，选取可分离向量空间的交空间中的轴组成二维投影集合，具体为采用如下步骤获取二维投影集合：
(1)将步骤S3得到的邻接矩阵G中的每个类别对作为一个点，类别对中的相交关系作为点与点之间的连线，构建得到图G＝{V,E}；其中V表示图中的点，E表示图中的边；
(2)采用近似算法得到步骤(1)中的图的最大团集合，并根据顶点数目从多到少排序，得到完全图集合C＝{c1,c2,...,ci,...,ck}，其中ci表示包含第i多个顶点数目的完全图；
(3)初始化结果集合R＝{c1}，并从c2开始依次遍历完全图集合C中每一个元素ci，依次获取最大且与集合R中不重复的元素，并将获取的元素加入集合R中，得到第一结果集合R；
(4)若步骤(3)中得到的集合R的元素个数为奇数，则对集合R中顶点数最多的团进行顶点细分，从而使得集合R的元素个数为偶数；
(5)步骤(4)中得到的集合R中，以集合R的奇数轴依次作为视图集合的x轴，偶数轴依次作为视图集合的y轴，构建最优投影集合。

5.一种包括了权利要求1～4之一所述的有标签高维数据的最优投影集合方法的情感文本分类方法，具体包括如下步骤：
(S1).获取需要投...

【专利技术属性】
技术研发人员：王雨思，夏佳志，奎晓燕，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人