System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于一致粒化的特征选择方法及系统技术方案_技高网

基于一致粒化的特征选择方法及系统技术方案

技术编号:41133541 阅读:5 留言:0更新日期:2024-04-30 18:04
本发明专利技术涉及计算机技术领域,公开一种基于一致粒化的特征选择方法及系统,以提高特征选择的效率。方法包括:获取至少两个样本与至少两个特征之间的关系表;对所述关系表进行归一化处理;将归一化处理后的对各特征在0至1之间的取值范围均分成统一数量的至少两个区间;对任一特征,根据各样本对应的标签依次执行无粒子区间删除、相邻区间同标签一致性粒子之间的区间融合及区间内粒子非一致性的区间去除处理;再确定所保留区间的粒子半径;判断是否对各特征根据统一设置的粒子半径阈值进行去躁处理,根据判断结果得到相应的第一或第二特征一致性关系表,进而确定被筛查出的相应关键特征。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种基于一致粒化的特征选择方法及系统


技术介绍

1、随着信息采集技术的飞速发展,数据规模的爆发式增长容易导致“维度灾难”。特征选择是粗糙集理论在机器学习和数据挖掘领域中最重要的应用之一。

2、然而,现有的特征选择算法,当处理大规模数据集时,基于粗糙集理论的大多数特征选择算法由于计算复杂度过高而很难在有限的资源下完成计算;例如:基于粗糙集理论的特征选择方法在计算效率和分类精度方面的表现通常无法满足大规模数据的需求。


技术实现思路

1、本专利技术目的在于公开一种基于一致粒化的特征选择方法及系统,以提高特征选择的效率。

2、为达上述目的,本专利技术方法包括:

3、步骤s1、获取至少两个样本与至少两个特征之间的关系表;

4、步骤s2、对所述关系表进行归一化处理;

5、步骤s3、将归一化处理后的对各特征在0至1之间的取值范围均分成统一数量的至少两个区间;

6、步骤s4、对任一特征,根据各样本对应的标签依次执行无粒子区间删除、相邻区间同标签一致性粒子之间的区间融合及区间内粒子非一致性的区间去除处理;再确定所保留区间的粒子半径;

7、步骤s5、判断是否对各特征根据统一设置的粒子半径阈值进行去躁处理,如果否,转步骤s6;如果是,转步骤s7;

8、步骤s6、对任一特征,将被纳入相对应保留区间中的样本赋值为1,对未被纳入保留区间中的样本赋值为0,得到第一特征一致性关系表;p>

9、步骤s7、对任一特征,将被纳入相对应保留区间、且保留区间粒子半径大于或等于所述粒子半径阈值中的样本赋值为1,对未被纳入保留区间和保留区间粒子半径小于所述粒子半径阈值中的样本赋值为0,得到第二特征一致性关系表;

10、步骤s8、对所述第一特征一致性关系表或所述第二特征一致性关系表中的各特征进行一致性评分,将评分最高的一个特征确定为第一特征,根据第一特征确定能决策的样本;再将所述第一特征一致性关系表或所述第二特征一致性关系表中能决策的样本对应各特征的取值分别赋值为0,从更新后的第一特征一致性关系表或第二特征一致性关系表中确定一个评分最高的特征为第二特征,然后基于该第二特征从不能基于第一特征进行决策的剩余样本中筛选出能决策的新样本;依此类推,再次更新第一特征一致性关系表或第二特征一致性关系表后筛选出第三特征,直至遍历完特征评分大于或等于设定评分阈值的特征,确定被筛查出的相应关键特征;所述评分阈值为大于或等于1的正整数。

11、优选地,本专利技术样本标签采用二分类标签。进一步地,所述粒子半径阈值大于区间数量与标签分类数量乘积的倒数。

12、为达上述目的,本专利技术还公开一种基于一致粒化的特征选择系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。

13、本专利技术具有以下有益效果:

14、能对单个特征实现高效地粒化处理,为如何基于单个特征进行决策信息的逐层提取提供了以评分度进行递进的方法,且能确保在先所提取特征对剩余样本的干扰;即使在有限的资源下也能确保了特征选择的效率和有效性。从而能为后续的神经网络等人工智能算法能筛选出降维后的关键特征,能极大地提高分类器的精度,例如:尤其适用于分类精度不佳的朴素贝叶斯分类器。

15、下面将参照附图,对本专利技术作进一步详细的说明。

本文档来自技高网...

【技术保护点】

1.一种基于一致粒化的特征选择方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,样本标签采用二分类标签。

3.根据权利要求1所述的方法,其特征在于,所述粒子半径阈值大于区间数量与标签分类数量乘积的倒数。

4.一种基于一致粒化的特征选择系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至3任一所述方法。

【技术特征摘要】

1.一种基于一致粒化的特征选择方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,样本标签采用二分类标签。

3.根据权利要求1所述的方法,其特征在于,所述粒子半径阈值大于区间数量与...

【专利技术属性】
技术研发人员:杨田沈烁程浩梁杰
申请(专利权)人:湖南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1