一种基于网络结构的特征选择方法技术

技术编号:26693634 阅读:45 留言:0更新日期:2020-12-12 02:49
本发明专利技术涉及分类、预测任务领域,是指一种基于网络结构的特征选择方法,解决了现有技术中特征之间复杂关系考虑不够的问题。本发明专利技术包括以下步骤:A构建特征网络;C构建特征选择器;D选择特征子集。本发明专利技术通过特征网络的构建和基于其上的特征组划分,充分挖掘了特征之间的复杂关系;本发明专利技术中的特征选择器综合考虑了特征网络的网络结构和特征在网络结构上的位置,在选择过程中充分利用了特征之间的复杂关系,解决现有技术中特征选择过程未充分考虑特征间的复杂关联关系导致结果不能满足模型需求的问题。

【技术实现步骤摘要】
一种基于网络结构的特征选择方法
本专利技术涉及分类、预测任务领域,特别是指一种基于网络结构的特征选择方法。
技术介绍
分类和预测任务广泛存在各个领域,目前有很成熟的机器学习技术,如逻辑斯蒂回归、支持向量机等,但在特征数据维度高时,现有的技术无法满足需求,如高维度的特征导致分类和预测时间复杂度高,特征之间的复杂关系导致分类和预测结果不尽人意。在分类和预测之前选取恰当的特征集,可提高分类和预测结果的性能,现有的特征选择方法大致可分为以下三类:1、过滤式方法:先直接依照数据的分布给特征打分,然后选取分值较高的特征。该类方法独立于模型本身,简单且时间复杂度较低,但选择效果一般不能满足模型需求;2、包裹式方法:首先输入每一个待选的特征子集分别训练模型,然后选择使得模型效果最好的特征子集,但这类方法依赖于具体的模型,因此容易出现过拟合且时间复杂度高;3、嵌入式方法:将特征选择作为学习模型的一部分,在模型的学习过程中会对每个特征进行度量,然后依照指标值和模型效果选取特征。该类方法折中了前两类方法,能在相对较低的时间复杂度内取得本文档来自技高网...

【技术保护点】
1.一种基于网络结构的特征选择方法,其特征在于:包括以下步骤:/nA构建特征网络:1)为每个特征创建一个节点;2)添加节点之间的边:计算矩阵中每两列之间的相关性系数,若计算出的相关性系数的绝对值大于给定阈值,则在相应的两节点之间添加一条边,且该边的权值为计算出的相关性系数的绝对值;/n给定含n个样本的数据集T={(x

【技术特征摘要】
1.一种基于网络结构的特征选择方法,其特征在于:包括以下步骤:
A构建特征网络:1)为每个特征创建一个节点;2)添加节点之间的边:计算矩阵中每两列之间的相关性系数,若计算出的相关性系数的绝对值大于给定阈值,则在相应的两节点之间添加一条边,且该边的权值为计算出的相关性系数的绝对值;
给定含n个样本的数据集T={(x1,y1),(x2,y2),…,(xn,yn)},其中为样本或记录xi在d个特征上的取值组成的d维特征向量,yi∈{0,1}为样本xi的标签,由所有的xi组成一个n×d的矩阵X;Xi,j表示矩阵X的第i行和第j列的元素,X*,j表示矩阵X的第j列;
C构建特征选择器:
1):采用逻辑斯蒂回归模型作为分类或预测模型,
即:其中w=(w1,w2,…,wd)称为权值向量,wi表示第i个特征对应的权值,b称为偏置,wT·x为w和x的内积;
2):运用“极大似然法”估计参数w和b;
给定训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)},似然函数为:



3):将扩展后的稀疏组作为惩罚项,即:其中D是对角矩阵,对角线上的元素值分别为相应特征节点的加权度,||D-1w||1为权值向量w的受特征节点加权度限制的L1范数,控制特征层面的选择,是特征组上的L2,1范数且控制特征组层面的选择,而λ1,λ2≥0;特征选择器具体为:



D选择特征子集。


2.根据权利要求1所述的一种基于网络结构的特征选择方法.,其特征在于:在步骤A和步骤C之间还设置有步骤B:特征组划分:1)社区结构发现;
2)将属于同一个社区的特征组成一个特征组。


3.根据权利要求1或2所述的一种基于网络结构的特征选择方法,其特征在于:步骤D具体的是采用梯度下降法作为基...

【专利技术属性】
技术研发人员:胡艳梅多滨
申请(专利权)人:成都理工大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1