时序特征的优化方法和优化装置制造方法及图纸

技术编号:14778193 阅读:103 留言:0更新日期:2017-03-09 14:07
本发明专利技术公开了一种时序特征的优化方法和优化装置。该优化方法包括:将多个时序特征进行组合,以形成多个特征组合,其中每个特征组合中均具有预定数量的时序特征;计算每个特征组合的重要度向量;根据每个特征组合的重要度向量,对所述多个特征组合进行聚类,以形成多个类;以及在所述多个类中选取所述多个时序特征中的一部分时序特征。该优化方法通过将时序特征进行组合并计算组合的重要度向量,并且以此为依据对特征组合进行聚类,从而将相关的特征聚为同一类,在每个类中可适当地选取时序特征,以用于机器学习。如此,可优化用于机器学习的时序特征,使得所选取的时序特征更加有利于机器学习的效果。

【技术实现步骤摘要】

本专利技术属于机器学习领域,一般地涉及特征吸收,具体涉及时序特征的优化方法和优化装置
技术介绍
在机器学习领域,在学习的过程中所选用的特征对学习的效果起着至关重要的作用。例如,对于相同的分类器,不同的特征构造形式或特征选取方式会使机器学习的结果产生很大差异。因此,为了达到理想的学习效果,选取合适的特征或合理地构建特征是很重要的。在实际操作中,特征的构建或选取往往需要人工的参与来完成。但这种方式费时费力。不仅如此,如果完成此项工作的操作者经验不足,往往会达不到理想的效果。因此,如何构建或选取合适的特征以用于机器学习,是本领域的一个重要课题。时序特征是上述用于机器学习的特征的一类重要的特征。由于其自身具有时序的特点,对于用于机器学习的时序特征的选取或构建已成为一个难题。
技术实现思路
有鉴于此,本专利技术提出了一种时序特征的优化方法和优化装置。该方法和装置通过将时序特征进行组合并计算组合的重要度向量,并且以此为依据对特征组合进行聚类,从而将相关的特征聚为同一类,在每个类中可适当地选取时序特征,以用于机器学习。根据本专利技术的一个方面,提供了一种时序特征的优化方法,包括:将多个时序特征进行组合,以形成多个特征组合,其中每个特征组合中均具有预定数量的时序特征;计算每个特征组合的重要度向量;根据每个特征组合的重要度向量,对所述多个特征组合进行聚类,以形成多个类;以及在所述多个类中选取所述多个时序特征中的一部分时序特征。根据本专利技术的另一方面,提供了一种时序特征的优化装置,包括:特征组合单元,将多个时序特征进行组合,以形成多个特征组合,其中每个特征组合中均具有预定数量的时序特征;计算单元,计算每个特征组合的重要度向量;聚类单元,根据所述计算单元计算的每个特征组合的重要度向量,对所述多个特征组合进行聚类,以形成多个类;以及选取单元,在所述多个类中选取所述多个时序特征中的一部分时序特征。根据本专利技术所提供的技术方案,对时序特征进行了优化,从而使得所选取的时序特征更加有利于机器学习的效果。附图说明参照附图来阅读本专利技术的各实施方式,将更容易理解本专利技术的其它特征和优点,在此描述的附图只是为了对本专利技术的实施方式进行示意性说明的目的,而非全部可能的实施,并且不旨在限制本专利技术的范围。在附图中:图1示出了根据本专利技术一个实施方式的时序特征的优化方法的流程图;图2示例性地示出了10个时序特征;图3示出了根据本专利技术一个实施方式计算每个特征组合的重要度向量的流程图;图4示例性地示出了根据本专利技术一个实施方式一个统计计算窗口的帧累计频率字典和帧累计重要度字典;图5示出了根据本专利技术一个实施方式在多个类中选取多个时序特征中的一部分时序特征的流程图;图6示出了根据本专利技术一个实施方式在重要度最高的多个类中选取时序特征的流程图;图7示出了根据本专利技术另一实施方式在重要度最高的多个类中选取时序特征的流程图;图8示出了根据本专利技术一个实施方式从每个时序特征吸收对中删除一个时序特征的流程图;图9示出了根据本专利技术一个实施方式的时序特征的优化装置的框图;图10示出了根据本专利技术一个实施方式的计算单元的框图;图11示出了根据本专利技术一个实施方式的选取单元的框图;图12示出了根据本专利技术一个实施方式的选取子单元的框图;以及图13示出了可用于实施根据本专利技术实施例的方法和系统的计算机的示意性框图。具体实施方式现参照附图对本专利技术的实施方式进行详细描述。应注意,以下描述仅仅是示例性的,而并不旨在限制本专利技术。此外,在以下描述中,将采用相同的附图标号表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征,可彼此结合,以形成本专利技术范围内的其他实施方式。图1示出了根据本专利技术一个实施方式的时序特征的优化方法的流程图。如图1所示,该方法1000包括步骤S1100至S1400。对于本专利技术所提供的方法和装置,可预先通过任何已知的方式已获取了时序特征,随后考虑如何对其进行优化。在步骤S1100中,将多个时序特征进行组合,以形成多个特征组合,每个特征组合中均具有预定数量的时序特征。图2示例性地示出了10个时序特征X1、X2、X3……X10。在图2中,每一行代表一个时序特征X,每一列代表时序特征的一帧。每个时序特征在一帧上的数据都是二值化的。如图2所示,在任一时序特征的任一帧,实心圆圈表示该时序特征在该帧的取值为1,空白则表示取值为0。例如,时序特征X6在图2右侧阴影处的帧的取值为1。在图2所示的示例中,以N=3为维度对时序特征进行组合,即每个特征组合中均包含3个时序特征。如图2上部的阴影区域所示,(X1,X2,X3)构成了一个特征组合。由此,图2所示的10个时序特征X1至X10可构成(X1,X2,X3)、(X1,X2,X4)、(X1,X2,X5)……(X8,X9,X10),共120个特征组合。再参见图1,在步骤S1200中,计算每个特征组合的重要度向量。该重要度向量是特征组合在重要程度方面的表征,其具体计算方法将在如下详细描述。随后在步骤S1300中,根据每个特征组合的重要度向量,对多个特征组合进行聚类,以形成多个类。每个类中的特征组合之间在某些性质上具有相似性,故而能够被聚类为同一类中。在步骤S1400中,在该多个类中选取多个时序特征中的一部分时序特征。由此,通过将时序特征进行组合并计算组合的重要度向量,并且以此为依据对特征组合进行聚类,从而将相关的特征聚为同一类,在每个类中可适当地选取时序特征,以用于机器学习。如此,可优化用于机器学习的时序特征,使得所选取的时序特征更加有利于机器学习的效果。图3示出了根据本专利技术一个实施方式计算每个特征组合的重要度向量的流程图。如图3所示,上述步骤S1200可包括子步骤S1210至S1230。在子步骤S1210中,为每个特征组合设置多个统计计算窗口,每个统计计算窗口包括该特征组合在多个时序帧的二值化特征数据。图2中示例性地示出了一个统计计算窗口。如图2所示,在特征组合(X1,X2,X3)设置有统计计算窗口W,其高度为特征组合的高度3,长度(即,包含的帧数)可根据实际需要而确定。再参照图3,在子步骤S1220中,设置每个统计计算窗口的帧累计频率字典和帧累计重要度字典。并且,在子步骤S1230中,根据每个特征组合的各个统计计算窗口的帧累计频率字典和帧累计重要度字典,计算该特征组合的重要度向量。由此,在每个特征组合中设置用于统计计算的多个窗口,而在每个窗口中的统计计算可借助于帧累计频率字典和帧累计重要度字典来完成。帧累计频率字典和帧累计重要度字典将在以下进行详细描述。根据本专利技术一个实施方式每个帧累计频率字典和每个帧累计重要度字典均包括键和相应的键值,每个统计计算窗口的帧累计频率字典和帧累计重要度字典的键和键值根据该统计计算窗口中在每个时序帧的二值化特征数据按时序计算。图4示例性地示出了根据本专利技术一个实施方式一个统计计算窗口的帧累计频率字典和帧累计重要度字典。在图4的上部示出了一个统计计算窗口,其维度为N=3,即包含3个时序特征,其长度为16,即包含16帧的二值化特征数据。在从左至右扫描该统计计算窗口中的数据时,可将扫描到的每一帧的数据作为一个向量。例如,在第1-3帧的数据为(1,0,0),第4帧的数据为(0,0,0),第5-15本文档来自技高网...
时序特征的优化方法和优化装置

【技术保护点】
一种时序特征的优化方法,包括:将多个时序特征进行组合,以形成多个特征组合,其中每个特征组合中均具有预定数量的时序特征;计算每个特征组合的重要度向量;根据每个特征组合的重要度向量,对所述多个特征组合进行聚类,以形成多个类;以及在所述多个类中选取所述多个时序特征中的一部分时序特征。

【技术特征摘要】
1.一种时序特征的优化方法,包括:将多个时序特征进行组合,以形成多个特征组合,其中每个特征组合中均具有预定数量的时序特征;计算每个特征组合的重要度向量;根据每个特征组合的重要度向量,对所述多个特征组合进行聚类,以形成多个类;以及在所述多个类中选取所述多个时序特征中的一部分时序特征。2.如权利要求1所述的方法,其中计算每个特征组合的重要度向量包括:为每个特征组合设置多个统计计算窗口,其中每个统计计算窗口包括该特征组合在多个时序帧的二值化特征数据;设置每个统计计算窗口的帧累计频率字典和帧累计重要度字典;以及根据每个特征组合的各个统计计算窗口的帧累计频率字典和帧累计重要度字典,计算该特征组合的重要度向量。3.如权利要求2所述的方法,其中每个帧累计频率字典和每个帧累计重要度字典均包括键和相应的键值,每个统计计算窗口的帧累计频率字典和帧累计重要度字典的键和键值根据该统计计算窗口中在每个时序帧的二值化特征数据按时序计算。4.如权利要求3所述的方法,其中对于每个统计计算窗口中的每个时序帧,如果该时序帧的二值化特征数据未包含在该统计计算窗口的帧累计频率字典的键中,则根据该时序帧的二值化特征数据更新帧累计频率字典中的键,以形成当前键,并将所述当前键的相应键值设为1;并且如果该时序帧的二值化特征数据已包含在该统计计算窗口的帧累计频率字典的键中,则将所述当前键的相应键值加1。5.如权利要求3或4所述的方法,其中对于每个统计计算窗口中的每个时序帧,如果该时序帧的二值化特征数据未包含在该统计计算窗口的帧累计重要度字典的键中,则根据该时序帧的二值化特征数据更新帧累计重要度字典的键,以形成当前键,并根据下式计算所述当前键的相应键值;并且如果该时序帧的二值化特征数据已包含在该统计计算窗口的帧累计重要度字典的键中,则根据下式更新所述当前键的相应键值,keyvalue=keyvalue+Σi=1NMarginal_Entropy(i)-Join_Entropy]]>其中Marginal_Entropy(i)=-P(i)*log2P(i)-(1-P(i))*log2(1-P(i))Join_Entropy=-log21key_num]]>P(i)=variable_sum_vector[i]key_num]]>其中keyvalue表示键值,key_num表示帧累计重要度字典中键的个数,variable_sum_vector表示该统计计算窗口中已处理的时序帧的二值化特征的和向量,N表示帧累计重要...

【专利技术属性】
技术研发人员:杨铭夏迎炬侯翠琴
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1