一种基于互信息量的改进特征评价方法技术

技术编号：19009461 阅读：27 留言：0更新日期：2018-09-22 09:17

一种基于互信息量的改进特征评价方法：输入一个特征子集维度为m的数据，每个特征包含有若干个样本；计算特征子集的相关性，即特征子集中所有特征与目标类别标签的互信息量之和；计算特征子集中特征之间的冗余性，即特征子集中所有特征之间的互信息量的平均值；计算特征子集的评估值，即是特征子集的评估值。本发明专利技术的一种基于互信息量的改进特征评价方法，针对复杂信号的特征有效性评估问题，结合实际应用，既考虑冗余性又考虑相关性，有效解决了目前已有特征选择评估准则中存在的难以有效衡量特征有效性问题，更高效的完成特征选择任务，最终提高数据挖掘与模式识别的效率。

An improved feature evaluation method based on mutual information

An improved feature evaluation method based on mutual information is proposed, in which data with dimension m of a feature subset is input and each feature contains several samples; correlation of feature subsets is calculated, i.e. the sum of mutual information between all features in the feature subset and the label of the target class; and redundancy between features in the feature subset is calculated, i.e. The average value of mutual information between all features in a feature subset; the evaluation value of a feature subset is calculated, that is, the evaluation value of a feature subset. An improved feature evaluation method based on mutual information is proposed. Aiming at the problem of feature validity evaluation of complex signals, combined with practical application, the method considers both redundancy and correlation, and effectively solves the problem that it is difficult to effectively measure the feature validity in the existing feature selection evaluation criteria. Finally, it improves the efficiency of data mining and pattern recognition.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于互信息量的改进特征评价方法
本专利技术涉及一种特征评价方法。特别是涉及一种针对特征选择中无法高效评估复杂信号特征有效性的基于互信息量的改进特征评价方法。
技术介绍
1、特征选择的概念随着数据采集与存储技术的发展，高维数据广泛存在于自然界，金融学，工业，生物医学等诸多领域，其中在多个特征之间包含复杂的非线性关系。从高维数据中找到潜在的有用信息和建立预测模型已经成为数据挖掘和知识发现的最重要的方面之一。虽然高维数据可以提供丰富的信息，但随着数据集的维数和规模的不断增大，建立精确的预测模型越来越困难。同时，不相关冗余特征的存在很容易掩盖重要特征的影响，对建模有负面影响。因此，针对这些问题，包括特征提取和特征选择在内的降维方法备受关注。特征选择是从原始数据集中选择一个最优的特征子集的过程。它是模式识别领域的一个关键问题，被广泛应用于处理高维数据集。一个典型的特征选择方法包括四个基本步骤，它的过程被分为：生成过程，评估函数，停止准则和验证过程。生成过程是一个搜索过程，评估函数是评估正在检查的子集，停止准则是决定特征选择何时停止，验证过程是检查子集是否有效。目前对特征选择方法的研究主要集中于搜索策略和评价准则。2、评价准则评价准则是定义一个适当的评估函数来为一组特征进行评分，用于衡量特征区分不同类别标签的识别能力。根据评估标准，所有特征选择方法可以分为两大类：过滤式(Filter)和封装式(Wrapper)。过滤式利用独立的评价准则在给定分类器的学习过程被执行之前选择特征的适当子集。过滤式的评价准则可以分为四类：距离，信息，依赖性和一致性。封装式使用给定分类器...

【技术保护点】
1.一种基于互信息量的改进特征评价方法，其特征在于，包括如下步骤：1)输入一个特征子集维度为m的数据，每个特征包含有若干个样本；2)计算特征子集的相关性，即特征子集中所有特征与目标类别标签的互信息量之和，用D(S,L)表示，公式如下：D(S,L)＝∑I(Si；L)Si表示特征子集中第i个特征，L表示目标类别标签，I(Si；L)表示特征子集中的第i个特征和目标类别标签的互信息量；3)计算特征子集中特征之间的冗余性，即特征子集中所有特征之间的互信息量的平均值，用R表示，公式如下：

【技术特征摘要】
1.一种基于互信息量的改进特征评价方法，其特征在于，包括如下步骤：1)输入一个特征子集维度为m的数据，每个特征包含有若干个样本；2)计算特征子集的相关性，即特征子集中所有特征与目标类别标签的互信息量之和，用D(S,L)表示，公式如下：D(S,L)＝∑I(Si；L)Si表示特征子集中第i个特征，L表示目标类别标签，I(Si；L)表示特征子集中的第i个特征和目标类别标签的互信息量；3)计算特征子集中特征之间的冗余性，即特征子集中所有特征之...

【专利技术属性】
技术研发人员：张涛，丁碧云，赵鑫，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人