特征选择的方法及装置制造方法及图纸

技术编号:3912694 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种特征选择的方法及装置,涉及媒体分类技术领域,用以降低特征选择过程中对特征子集进行评价的复杂度。本发明专利技术实施例提供的特征选择的方法,包括:生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。本发明专利技术实施例提供的方法及装置适用于包含高层分类信息的媒体特征的选择。

【技术实现步骤摘要】

本专利技术涉及媒体分类
,尤其涉及一种媒体分类中进行特征选择的方法及直O
技术介绍
一般地,在特征获取阶段,为确保提供足够的分类信息,原始特征数目比较多,其 中不可避免地存在大量冗余信息,因此就需要通过特征选择从原始特征集中剔除冗余信 息,挑选出最有效的特征。在媒体分类中,特征选择是指通过对数据的评价,从众多原始特征中挑选出用于 媒体分类的有限个特征。例如,原始特征集为F = (Fi, i = l,..., N},其中原始特征的数 目为N ;通过特征选择得到一个最优的特征子集,其中特征的数目为M,M^N0特征选择需要解决两个问题一是确定选择算法,在允许的时间内,以可以容忍的 代价找出最小的、最能描述类别的特征子集;二是确定评价标准,用以衡量所找到的特征子 集是否最优,从而得到满足特征选择操作终止条件的特征子集。特征选择过程一般分两步 进行首先产生特征子集,其中包含至少一个媒体特征;然后对特征子集进行评价;如果所 述特征子集满足终止条件则操作完毕,否则重复上述两个步骤直到条件满足为止。在现有技术中,一种重要的特征选择方法是基于遗传算法,其通过如下方式对个 体进行编码若原始特征有N个,则个体的编码长度L = N,个体的每一个基因依次对应一 个特征;具体地,对个体进行编码的方式有两种一是二进制位串编码方式,当个体中的某 一个基因为“1”时,表示该基因对应的特征项被选用;反之,当某一基因为“O”时,表示该基 因对应的特征项未被选用;二是实数编码方式,每个基因对应一个实数的权值,权值越大表 示其对应的特征项越重要;反之,权值越小表示其对应的特征项越不重要。在确定了选择算法为基于遗传算法的搜索策略,并通过该选择算法得到一组特征 子集后,就需要根据确定的评价标准对选出的特征子集进行评估。现有技术中多数都是基 于分类器精度进行特征子集的评估,其将样本集分为训练集及测试集,先利用训练集训练 分类器模型并得到相应的模型及参数,接着输入测试集并对测试结果进行评价,将得到的 分类精度作为遗传算法的适应度函数。不过,在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题现有技术根据分类器分类精度评价特征子集的优劣,需要构建分类器模型、训练 分类器模型并得到相应的参数,使得基于分类器分类精度进行特征子集评估的代价较高, 而且计算过程很复杂。
技术实现思路
本专利技术的实施例提供一种特征选择的方法及装置,可降低特征选择过程中对特征 子集进行评价的复杂度。为达到上述目的,本专利技术的实施例采用如下技术方案一种特征选择的方法,包括生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特 征;根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。一种进行特征选择的装置,包括生成单元,用于生成至少一个特征向量,所述每个特征向量对应一个度量函数和 至少一个媒体特征;计算单元,用于根据所述特征向量对应的度量函数和媒体特征,计算该特征向量 的适应度值。本专利技术实施例提供的特征选择的方法及装置,在特征向量中携带度量函数和媒体 特征的信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特 征向量对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集 的适应度值,进而根据得到的适应度值对特征子集进行选择;相对于现有技术,本专利技术实施 例提供的特征选择的方法及装置不依赖于特定分类器,没有分类器效率问题的负担,避免 了现有的基于分类器学习算法的复杂性,可以实现降低特征选择过程中对特征子集进行评 价的复杂度的目的。附图说明图1为本专利技术实施例一中特征选择的方法流程图;图2为本专利技术实施例二中特征向量的表达方式一;图3为本专利技术实施例二中特征向量的表达方式二 ;图4为本专利技术实施例二中特征选择的方法流程示意图;图5为本专利技术实施例二中计算特征向量适应度值的方法流程示意图;图6为本专利技术实施例三中进行特征选择的装置结构示意图;图7为本专利技术实施例四中进行特征选择的装置结构示意图;图8为本专利技术实施例四中进行特征选择的装置中计算模块的结构示意图。具体实施例方式为了降低特征选择过程中对特征子集进行评价的复杂度,本专利技术实施例提供了一 种特征选择的方法及装置。本专利技术实施例提供的特征选择的方法是基于遗传算法的,在遗 传算法编码方式上,将度量函数和媒体特征项作为等位基因编码到同一条染色体上,其中 所述染色体就是本专利技术实施例中提到的特征向量。下面结合附图对本专利技术实施例提供的特征选择的方法及装置进行详细描述。实施例一如图1所示,本专利技术实施例提供的特征选择的方法,包括以下步骤101、生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒 体特征。在本专利技术实施例中,所述特征向量对应的度量函数为可选择的度量函数中的一 个,特征向量中携带的度量函数信息即为所选度量函数对应的编码;所述至少一个媒体特征代表着一个特征子集,其可以由随机生成的数字表示,所述随机生成的数字可以是二进 制位串,也可以是实数串。102、根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。根据所述特征向量中媒体特征的编码确定样本中被选择的特征项,依据所述被选 择的特征项并结合所述特征向量所对应的度量函数计算不同样本之间的相似度,然后参考 样本之间的相似度对样本进行权重赋值,在消除了各样本的差异性对特征向量的适应度值 的影响后,即可确定所述特征向量的适应度值。上述相似度可以是通过样本之间的相似系数来描述,也可以通过样本之间的距离 来描述。本专利技术实施例提供的特征选择的方法,在特征向量中携带度量函数和媒体特征的 信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特征向量 对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集的适应 度值,进而根据得到的适应度值对特征子集进行选择;本专利技术实施例提供的特征选择的方 法不依赖于特定分类器,没有分类器效率问题的负担,避免了现有的基于分类器学习算法 的复杂性。实施例二 为了能够更好地说明本专利技术实施例提供的特征选择的方法,现假设有如下应用场 景从含有1)个媒体特征的音乐原始特征集中选择出最好的能够表达音乐情感的特 征子集,并提供至少一个度量函数和至少两个预先标注有高层分类信息(比如情感信息) 的音乐样本用以对所选出的特征子集进行评价,其中每个音乐样本对应的特征项和情感标 注均以向量的形式表示。本专利技术实施例提供的特征向量同时包含一个度量函数和至少一个媒体特征的信 息,即在遗传算法中将度量函数和所有媒体特征统一编码到同一条染色体中;其中,所述特征向量包含的度量函数为可选择的至少一个度量函数中的一个,如果可供 选择的度量函数的数目为W,则在特征向量中用于描述所选度量函数的位数a要大于等于 「10§2妒],这里的“「1”为向上取整符号,例如共有3个可供选择的度量函数,采用二进制编 码方式,其编码可以分别设为01、10、11,特征向量中携带的度量函数信息即为所选度量函 数对应的编码;上述度量函数为相似性度量函数,具体地,可以是距离函数或者相似系数函 数。所述至少一个媒体特征代表着原始特征集中所有媒体特征被选择的情况,针对媒 体特征的编码方式有两种一是二进制位串编码方式,每个媒本文档来自技高网
...

【技术保护点】
一种特征选择的方法,其特征在于,包括:生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。

【技术特征摘要】

【专利技术属性】
技术研发人员:王上飞朱华李德旭
申请(专利权)人:华为技术有限公司中国科学技术大学
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1