云平台下基于粗糙超立方体的大规模特征选择方法技术

技术编号：28143598 阅读：15 留言：0更新日期：2021-04-21 19:24

本发明专利技术公开了一种云平台下基于粗糙超立方体的大规模特征选择方法。本发明专利技术主要提出了面向云平台的超立方体等价划分矩阵的表示方法和特征度量标准，设计一种缓存

全部详细技术资料下载

【技术实现步骤摘要】
云平台下基于粗糙超立方体的大规模特征选择方法

[0001]本专利技术涉及大规模数据特征选择
，具体涉及一种云平台下基于粗糙超立方体的大规模特征选择方法。

技术介绍

[0002]由于计算机与互联网技术的快速发展，在军事、金融、通讯等行业，数据量的生成速度和存储规模正以前所未有的态势不断增长。与此同时，数据的形式也不再局限于离散特征，更多的是连续型特征，特别是能源、气象、遥感等领域的数据。高维度的数据不仅会增加计算的复杂度，还很容易造成机器学习算法出现过拟合的现象，从而影响其学习性能。而特征选择能够在保证学习模型性能稳定的同时，为数据分析确定相关特征并尽可能多地剔除冗余特征，这也是其在模式识别、机器学习等领域广受欢迎的主要原因。
[0003]云计算作为分布式计算的一种，突破了单台计算机资源不足的限制，通过构建计算机集群为大规模数据计算提供了良好的解决方案。所以目前处理连续型大规模特征选择问题的常用方法有：1)先对数据集中连续型特征离散化，离散方法有等距离散、等频离散和优化离散等，再结合云平台，运用分布式计算技术和Pawlak粗糙集模型对离散后的数据进行特征选择。虽然Pawlak粗糙集模型中的等价关系非常适用于分布式计算，但是数据离散化的过程会造成信息丢失，从而影响选择特征的质量。2)选择适用于连续型特征的粗糙集模型，主要有邻域粗糙集和模糊粗糙集，再通过哈希方法等将其并行化实现，以适用云计算范例。这种方法虽然避免了离散化数据造成的信息丢失，但因为模型本身的限制，即邻域关系和相似矩阵的计算涉及全局交流的问题，仍...

【技术保护点】

【技术特征摘要】
1.一种云平台下基于粗糙超立方体的大规模特征选择方法，其特征在于，包括以下步骤：S1、初始化权重参数ω、λ和预计选择特征的个数d；S2、初始化已选特征集合S和候选特征子集C；S3、读取数据集，通过云平台以数据并行地方式分布式计算值域矩阵，再根据值域矩阵分布式计算由特征的超立方等价划分矩阵分解、重构后得到的超立方体等价划分矩阵；S4、基于分解重构的超立方体等价划分矩阵再以数据并行的方式分布式计算每一个特征与决策属性之间的相关度，选择最相关的特征添加到已选特征集合S中，并从候选特征子集C中删去该特征；S5、当|S|＜d且时，进入步骤S6，否则输出特征集合S；S6、通过云平台上数据并行地方式，基于分解重构的超立方体等价划分矩阵，并结合缓存
‑
更新
‑
过滤机制的加速方法，分布式计算每一个候选特征对于已选特征集合S的依赖度和平均重要度，若添加某个候选特征到已选特征集合S后，依赖度没有变化，则从候选特征子集C中删除该候选特征；S7、根据权重参数ω、λ计算每个候选特征的度量标准函数值，挑选该值最大的候选特征添加到已选特征集合S，并从候选特征子集C中删去该特征。2.根据权利要求1所述的云平台下基于粗糙超立方体的大规模特征选择方法，其特征在于，所述步骤S3中的值域矩阵计算方法为：给定一个决策表<U，C∪D>，其中，U＝{x1，x2，...，x
n
}表示n个样本的集合，且表示集合U可由q个不相交的子集U
i
组成；C＝{A1，A2，...，A
m
}表示m个条件特征的集合，D表示决策属性集合，U/D＝{β1，β2，...，β
c
}表示c个决策类别的集合；通过LU(C)＝[(L
ij
，U
ij
)]表示值域矩阵，其中L
ij
表示所有属于决策类别β
i
的样本在特征A
j
下的最小值，U
ij
表示所有属于决策类别β
i
的样本在特征A
j
下的最大值。3.根据权利要求2所述的云平台下基于粗糙超立方体的大规模特征选择方法，其特征在于，所述步骤S3中特征的超立方体等价划分矩阵为：上式中，H(A
k
)为特征A
k
的超立方体等价划分矩阵，区间[L
ik
，U
ik
]为所有属于决策类别β
i
的样本在特征A
k
下的值域。所述步骤S3中由上述矩阵分解、重构得到的面向云平台的超立方体等价划分矩阵为：
上式中，H{A
k
，U
p
)为子集在特征A
k
{A
k
∈C)下的超立方体等价划分矩阵，区间[L
ik
，U
ik
]为所有属于决策类别β
i
的样本在特征A
k
下的值域。4.根据权利要求3所述的云平台下基于粗糙超立方体的大规模特征选择方法，其特征在于，所述步骤S4中相关度J
relev
(A
k
)的计算公式为：上式中，混淆向量值表示子集U
p
中的样本x
j
在特征A
k
是否只属于一个类别，即正区域，该值为0时，表示样本x
j
只属于一个类别；该值为1时表示样本x
j
属于多个类别，是误分类的样本，u＝|U
p
|表示子集U
p
中样本的个数。5.根据权利要求4所述的云平台下基于粗糙超立方体的大规模特征选择方法，其特征在于，所述步骤S6中依赖度J
depen
(S)的计算公式为：上式中，是子集U
p
...

【专利技术属性】
技术研发人员：王思朝，罗川，马磊，曹潜，张展云，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人