用于混合模型选择的方法和装置制造方法及图纸

技术编号:14277591 阅读:48 留言:0更新日期:2016-12-24 20:24
本发明专利技术的实施例涉及用于混合模型选择的方法和装置。该方法包括:通过训练多个第一初始化隐变量来生成多个候选模型;基于多个候选模型确定第二初始化隐变量;以及基于第二初始化隐变量来确定目标模型。本发明专利技术的实施例可以快速高效地执行混合模型选择,并具有良好的通用性。

【技术实现步骤摘要】

本专利技术的实施例总体上涉及机器学习领域,并且更具体地,涉及用于混合模型选择的方法和装置
技术介绍
混合模型(mixture model)是一种使用混合分布用于密度估计的概率模型,其可以表示一个大群体中存在子群体。混合模型可以包括多种模型,例如高斯混合模型、分段线性混合模型等,这些模型已被广泛应用于多种领域,诸如文档分类、手写识别、模糊图像分割等。在实践中,混合模型的模型选择是一个非常重要而又具有挑战性的问题。业界已经提出了一些方法来进行混合模型的模型选择,其中变分推理(variational inference)是一种比较有效的方法,其试图给出边际对数似然的解析近似。然而,变分推理对于初始化较为敏感,如果初始化不适当,则变分推理的效果可能会变得很差,从而无法准确地选择模型。因此,初始化已经成为影响变分推理的精度和效率的重要因素。目前,变分推理的初始化方法例如可以包括随机初始化、基于聚类的初始化等等。然而,随机初始化通常需要尝试大量的初始化样本来实现,处理耗时较长,从而会造成模型选择的速度较慢。另外,基于聚类的初始化对于以聚类为目标的混合模型(例如,高斯混合模型)可能是比较有效的,但是对于以回归/分类为目标的混合模型而言并不适合使用,所以基于聚类的初始化通用性较低。因此,需要一种处理速度快并且更为通用的初始化方案来实现混合模型选择。
技术实现思路
总体上,本专利技术的实施例提出一种用于混合模型选择的技术方案。在本专利技术的一个方面,提供一种用于混合模型选择的方法。所述方法包括:通过训练多个第一初始化隐变量来生成多个候选模型;基于多个候选模型确定第二初始化隐变量;以及基于第二初始化隐变量来确定目标模型。在本专利技术的另一方面,提供一种用于混合模型选择的装置。所述装置包括:候选模型生成单元,被配置为通过训练多个第一初始化隐变量来生成多个候选模型;第一确定单元,被配置为基于多个候选模型确定第二初始化隐变量;以及第二确定单元,被配置为基于第二初始化隐变量来确定目标模型。根据本专利技术的实施例,通过利用候选模型的训练结果来创建新的初始化隐变量,继而基于新的初始化隐变量来得到新的模型,这并不局限于某种特定混合模型类型。因此,根据本专利技术的方案具有良好的通用性。同时,根据本专利技术的实施例,基于局部最优模型来获取更可靠的新的初始化隐变量,从而基于新的初始化隐变量来得到目标模型。由此得到目标模型的时间相对于利用随机初始化隐变量直接得到目标模型的时间可以显著降低,从而根据本专利技术的方案具有较高的处理速度。本专利技术的其他特征和优点将通过下文描述而变得容易理解。附图说明通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显.其中:图1示出了根据本专利技术实施例的用于混合模型选择的方法的示意性流程图;图2示出了根据本专利技术实施例的用于混合模型选择的方法的示意性流程图;图3示出了根据本专利技术实施例的用于确定第二初始化隐变量的方法的示意性流程图;图4示出了根据本专利技术实施例的一个图形化表示的示意图;图5示出了根据本专利技术实施例的用于混合模型选择的装置的示意性框图;以及图6示出了适于用来实现本专利技术实施例的示例性计算机系统的示意性框图。在附图中,相同或相似的标号被用来表示相同或相似的元素。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。以下将详细描述本专利技术实施例的机制和原理。除非特别声明,在下文和权利要求中使用的术语“基于”表示“至少部分地基于”。术语“包括”表示开放性包括,即“包括但不限于”。术语“多个”表示“两个或更多”。术语“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。其他术语的定义将在下文描述中给出。图1示出了根据本专利技术实施例的用于混合模型选择的方法100的流程图。传统上,变分推理的初始化方法采用随机初始化、基于聚类的初始化等方法。然而,这些初始化方法通常具有处理速度较慢、适用性不广泛等问题,这些都是混合模型选择中的亟待解决的问题。通过下文描述将会理解,利用根据本专利技术的实施例的方法100,这些问题可以被得到有效地解决。方法100开始于步骤S110,在此通过训练多个第一初始化隐变量来生成多个候选模型。在本专利技术实施例中,“隐变量”可以表示不能被直接观测到、而需要通过样本数据推导得出的变量。隐变量的变分分布可以用于描述样本数据被聚类到对应类别的概率。应当注意的是,在本专利技术实施例中,
“隐变量”并不限于一种变量,而是可以包含“隐变量的变分分布”和/或其他适当的信息。在本公开中,隐变量可以包括初始化隐变量、更新的隐变量,等等,其中初始化隐变量表示用于进行训练的隐变量,而更新的隐变量表示训练后得到隐变量。在本专利技术实施例中,“模型”可以包括候选模型、中间模型以及目标模型,等等。模型可以通过对初始化隐变量进行训练来生成。如此生成的模型可以包括更新的隐变量的变分分布、模型参数、模型结构,等等。模型参数可以根据混合模型的类型不同而不同,由于混合模型通常是一类模型的总称,并且一个混合模型可由多个子模型组合而成,因此模型参数与具体的混合模型的类型相关联。举例而言,对于高斯混合模型而言,模型参数可以包括每个子模型所服从的高斯分布的均值和方差。对于分片线性模型而言,模型参数则可以包括门节点的条件控制参数和叶子节点的回归系数及偏差。模型结构也与混合模型的类型相关联。举例而言,对于高斯混合模型而言,模型结构可以包括子模型的个数及子模型合并系数,等等。对于分片线性模型而言,模型结构则可以包括学习出的树结构。应当理解,上述示例仅仅是出于讨论之目的,无意以任何方式限制本专利技术的范围。在一个实施例中,在步骤S110,可以基于训练样本集来确定多个第一初始化隐变量。例如,可以对训练样本集中的样本进行随机分组来得到多个第一初始化隐变量,或者可以对训练样本集中的样本进行聚类来得到多个第一初始化隐变量。第一初始化隐变量例如可以实现为矩阵的形式、数据集合的形式或者其他任何适当的形式。在一个实施例中,第一初始化隐变量可以是一个k×n维的矩阵,其中k是该矩阵的行数,表示第一初始化隐变量的样本组数目;n是该矩阵的列数,表示训练样本集中的样本数目。该矩阵中的一行对应于一个样本组,每行中的每个元素的值可以是0或者1。例如,如果该矩阵中的一行中的第i个元素是1,则表示与该行相对应的样本组中包含训练样本集中的第i个样本;如果该行中的第j个元素是1,则表示与该行相对应的样本组中不包含训练样本集中的第j个样本。应当理解,
上述矩阵中的元素的值不一定必须为0或者1,也可以是任何其他适当的数值。以上示例仅仅是为了讨论方便之目的,无意限制本专利技术的范围。在另一个实施例中,第一初始化隐变量可以是一个数据集合,例如可以包括k个样本组,每个样本组中有一个或多个样本。应当理解,上述示例仅仅是为了讨论之目的,并无意限制本专利技术的范围。本领域技术人员可以通过任何适当的方式来实现第一初始化隐变量。然后,可以针对多个本文档来自技高网
...
用于混合模型选择的方法和装置

【技术保护点】
一种用于混合模型选择的方法,所述方法包括:通过训练多个第一初始化隐变量来生成多个候选模型;基于所述多个候选模型确定第二初始化隐变量;以及基于所述第二初始化隐变量来确定目标模型。

【技术特征摘要】
1.一种用于混合模型选择的方法,所述方法包括:通过训练多个第一初始化隐变量来生成多个候选模型;基于所述多个候选模型确定第二初始化隐变量;以及基于所述第二初始化隐变量来确定目标模型。2.根据权利要求1所述的方法,其中通过训练多个第一初始化隐变量来生成多个候选模型包括:基于训练样本集来确定所述多个第一初始化隐变量;以及针对所述多个第一初始化隐变量中的每个第一初始化隐变量,在训练样本集上进行学习,以生成与所述每个第一初始化隐变量相对应的候选模型。3.根据权利要求1所述的方法,其中基于所述多个候选模型确定第二初始化隐变量包括:对所述多个候选模型进行配对;以及基于配对的候选模型确定所述第二初始化隐变量。4.根据权利要求1所述的方法,其中基于所述多个候选模型确定第二初始化隐变量包括:基于所述多个候选模型的性能从所述多个候选模型中选择至少两个候选模型;对所述至少两个候选模型进行配对;以及基于配对的候选模型确定所述第二初始化隐变量。5.根据权利要求4所述的方法,其中基于所述多个候选模型的性能从所述多个候选模型中选择至少两个候选模型包括:基于所述多个候选模型中的每个候选模型的更新的隐变量变分分布、模型参数和模型结构,来确定所述每个候选模型的性能;基于所确定的性能对所述多个候选模型进行排序;以及基于所述排序从所述多个候选模型中选择至少两个候选模型。6.根据权利要求3或者4所述的方法,其中所述配对的候选模型
\t中的每对候选模型包括第一候选模型和第二候选模型,其中基于配对的候选模型确定所述第二初始化隐变量包括:基于所述每对候选模型中的第一候选模型的更新隐变量和第二候选模型的更新隐变量,来确定一个第二初始化隐变量。7.根据权利要求6所述的方法,其中基于所述每对候选模型中的第一候选模型的更新隐变量和第二候选模型的更新隐变量,来确定一个第二初始化隐变量包括:执行以下操作一次或多次:选择所述每对候选模型中的第一候选模型的更新隐变量中的一个样本组作为第一样本组;基于所述第一样本组,从所述每对候选模型中的第二候选模型的更新隐变量中的样本组确定第二样本组;确定所述第一样本组与所述第二样本组的交集;基于所述交集将所述第一样本组分割为两个子集;以及基于所述两个子集构建第二初始化隐变量。8.根据权利要求7所述的方法,其中基于所述两个子集构建所述第二初始化隐变量包括:如果所构建的第二初始化隐变量的样本组数目少于所述第一初始化隐变量的样本组数目,则执行以下操作直至所述第二初始化隐变量的样本组数目等于所述第一初始化隐变量的样本组数目:选择所述第二初始化隐变量中的一个样本组;将选择的样本组分割为两部分,以作为所述第二初始化隐变量的两个样本组;以及从所述第二初始化隐变量中删除所述选择的样本组。9.根据权利要求1所述的方法,其中基于所述多个候选模型确定第二初始化隐变量包括:执行以下操作一次或多次:通过训练所述多个第二初始化隐变量来得到多个中间模型;基于所述多个中间模型确定第三初始化隐变量;以及利用所述第三初始化隐变量更新所述第二初始化隐变量。10.根据权利要求1所述的方法,其中具有多个第二初始化隐变量,并且其中基于所述第二初始化隐变量来确定目标模型包括:通过训练所述多个第二初始化隐变量来得到多个中间模型;确定所述多个中间模型的性能;以及基于所述性能选择所述多个中间模型中之一作为所述目标模型。11.一种用于混合模型选择的装置,所述装置包括:候选模型生成单元,被配置为通过训练多个第一初始化隐变量来生成多个候选模型;第一确定单元,被配置为基于所述多个候选模型确定第二初始化隐变量...

【专利技术属性】
技术研发人员:刘春辰王虎冯璐藤卷辽平
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1