本发明专利技术公开了一种基于增强在线搜索原理(ELS)的混合高斯模型(GMM)参数估计算法,用以解决在非平衡状态下的混合高斯模型,期望最大化算法(EM算法)收敛速度缓慢问题,其过程是:(1)导入多维样本集合;(2)采用EM算法,先计算E‑步,得到后验概率密度函数;(3)ELS原理,在给定方向上,朝着最终解的方向上,进行步长计算;根据初始目标函数,即:极大似然估计,对二阶多项式求根即可轻松计算出所需的步长;(4)判断新的步长合理性,更新混合高斯模型里面的参数,即计算M‑步。本发明专利技术依据增强在线搜索原理,加速了传统EM算法的收敛速度和收敛精度。
Parameter estimation algorithm of hybrid Gaussian model based on enhanced online search principle
【技术实现步骤摘要】
基于增强在线搜索原理的混合高斯模型参数估计算法
本专利技术涉及机器学习领域中的参数估计算法,具体是一种基于增强在线搜索原理的混合高斯模型参数估计算法,属于混合高斯模型里面的参数估计问题。
技术介绍
期望最大化(EM)算法是应用统计学中最流行的算法之一,特别是存在丢失或者隐藏信息的情况下,该算法能够更好的优化极大似然估计问题。混合高斯模型(GMM)是一个非常有用的数据聚类工具,广泛应用于模式识别,数据挖掘,图像分割,特征选择和提取,信号处理等领域中。GMM将数据集样本构建为一种线性的混合高斯分布。EM算法可以有效的识别GMM里面的参数,如,在每个类别条件下,混合参数,均值和协方差。然而,在(1)非平衡混合高斯分布条件下,(2)数据分离相对较差的条件下,EM算法的收敛的速度非常缓慢,并且对初始值比较敏感。针对条件(1),依据模拟退火原理的AAEM算法可以较好的解决EM算法收敛速度缓慢问题。针对条件(2),ECG算法依据最优化理论,采用牛顿法或伪牛顿法原理,加快了EM算法的收敛速度。尽管这些算法效率有所提高,但由于它们的计算复杂度高或者相对比较复杂,其性能表现仍然有待提升。除了上述方法之外,可以使用简单又非常有效的基于在线搜索的方案进一步提高EM算法的收敛速度。在线搜索算法在优化里面中得了广泛的应用,尤其是在张量分解和优化问题中。因此,将其应用于EM算法中,可以加速其收敛速度。比较有名的Aitken加速过程可以认为是一种在线搜索算法,该算法需要计算目标函数的二阶偏导的逆运算,如雅可比行列式等,然而该类算法在(2)条件下会遇到数值不稳定情况。为了解决这一情况,一种在线搜索方法(λ-EM)将搜索方向定义为两次相邻参数的差值,然而,该算法搜索步长的计算并不是最优的。
技术实现思路
本专利技术采用了一种新的增强在线搜索原理(ELS)用于解决EM算法的收敛速度缓慢问题,提供一种基于增强在线搜索原理的混合高斯模型参数估计算法。为了实现上述目的,本专利技术方法包括以下步骤:一种基于增强在线搜索原理的混合高斯模型参数估计算法,其特征是包含以下步骤:步骤(1)导入多维数据样本集X={x1,x2,...,xN},共有N个样本,每个样本xn是D×1的向量。该样本集是一个拥有K个组元的混合高斯模型(GMM)。需要估计的参数为:步骤(2)采用EM算法,先计算E-步,得到后验概率密度函数:E-step:步骤(3)ELS原理步骤。在给定方向上,朝着最终解的方向上,进行步长计算。根据初始目标函数,对二阶多项式求根即可轻松计算出所需的步长。原理中的最优步长可以根据式(0.12)和式(0.14)可得式(0.7),得到优化的θk(new),如果L(θk(new))>L(θk(it)),根据式(0.6),令步骤(4)更新GMM里的参数,即M-步:M-step:fork=1,...,K所述步骤(1)包含以下步骤:导入多维数据样本集X={x1,x2,...,xN},共有N个样本,每个样本xn是D×1的向量。该样本集是一个拥有K个组元的混合高斯模型(GMM)。该模型中的概率密度函数如下:其中,在第k个混合模型中,αk是混合系数,μk是样本向量均值(维度为D×1),Σk是协方差矩阵(维度为D×D),这些参数共同构成一个向量:(维度为:(D2+D+1)×1),其中,vec()是矩阵向量化操作。(维度为:K(D2+D+1)×1),p(xn|μk,Σk)在方程(0.1)的定义为:其中,det()是求行列式操作。本专利技术的主要目的是在GMM中估计向量θ的参数,这是一个优化问题。该优化问题可以用极大似然函数来表示:其中,L(θ)为极大似然函数,定义为:其中,X=[x1,x2,...,xN]维度为D×N。所述步骤(2)包含以下步骤:在上述极大似然函数问题(0.3)中,抽取的样本不知道是哪个分布抽取的,EM算法可以解决上述问题,该算法主要考虑了混合系数αk作为一种先验分布,即:p(zn=k)=αk。其中,zn为是一个潜在变量(表示为xn标签),p(zn=k)=αk表明该样本是第k个GMM组元的概率。因此,上述方程(0.4)极大似然函数可以如下表述:EM算法是一个两步交替迭代直到收敛的一个过程:E-step主要是计算潜在变量zn的后验概率密度函数即:E-step:所述步骤(3)包含以下步骤:为了解决EM算法在GMM模型遇到的超线性收敛环问题(尤其是在非平衡状态下的GMM模型),即:在一个给定的方向上,需要很多次迭代才能达到收敛情况。为了解决这种情况,本专利技术提供了一种增强在线搜索算法用以解决。主要采用线性插值原理,用于表示未知参数,θk(new):其中,θk(it-1)为参数θk的第(it-1)迭代结果,diag()为向量转化为对角线矩阵的操作,代表着不同参数条件下的步长调节参数,定义为当前迭代下的给定方向。由于因此:其中,和当不为正定矩阵时,我们让ELS原理主要是计算优化的步长向量改计算主要通过计算在后验概率密度条件下的期望值Q(θ(new)|θ(t)),即:上述优化问题满足然而,这个问题比较难以计算,为了进一步优化这个问题,我们可以假设上述问题可转化为:上述问题可以分解为两个子问题,第一个子问题P1为:经过推导可得:针对上述子问题P2,经过推导,可以通过如下二阶微分方程组解得:其中,其中,Tr()为矩阵的迹。所述步骤(4)还包含以下步骤:判断新的步长合理性,经过式(0.12)和式(0.14)可得式(0.7),得到优化的θk(new),如果L(θk(new))>L(θk(it)),根据式(0.6),令随后,更新GMM里的参数,即M-步:M-step:fork=1,...,K最终收敛条件定义如下:一般而言,τ=10-10,对于模拟退火算法(对比算法中将会用到)而言,τ=10-6。本专利技术的有益效果是:本专利技术采用了一种新的增强在线搜索原理(ELS)用于解决EM算法的收敛速度缓慢问题。提供一种基于增强在线搜索原理的混合高斯模型参数估计算法,相比于λ-EM算法,ELS-EM算法可以计算最优的步长,该步长可以通过一个二阶多项式求根得到。因此,性能提高的更好。在GMM模型中,尤其是在非平衡状态下,EM算法有可能遇到收敛速度缓慢问题,本专利技术依据一种增强在线搜索原理,利用在给定方向上的,计算最优步长,极大减少了迭代次数和误差精度。附图说明图1本文档来自技高网...
【技术保护点】
1.一种基于增强在线搜索原理的混合高斯模型参数估计算法,其特征是包含以下步骤:/n步骤(1)导入多维数据样本集X={x
【技术特征摘要】
1.一种基于增强在线搜索原理的混合高斯模型参数估计算法,其特征是包含以下步骤:
步骤(1)导入多维数据样本集X={x1,x2,...,xN},共有N个样本,每个样本xn是D×1的向量;该样本集是一个拥有K个组元的混合高斯模型(GMM);需要估计的参数为:
步骤(2)采用EM算法,先计算E-步,得到后验概率密度函数:E-step:
步骤(3)ELS原理步骤;在给定方向上,朝着最终解的方向上,进行步长计算;根据初始目标函数,对二阶多项式求根即可轻松计算出所需的步长;原理中的最优步长可以根据式(0.12)和式(0.14)可得式(0.7),得到优化的θk(new),如果L(θk(new))>L(θk(it)),根据式(0.6),令
步骤(4)更新GMM里的参数,即M-步:
M-Step:
fork=1,...,K
2.根据权利要求1所述的一种基于增强在线搜索原理的混合高斯模型参数估计算法,其特征是所述步骤(1)包含以下步骤:
导入多维数据样本集X={x1,x2,…,xN},共有N个样本,每个样本xn是D×1的向量;该样本集是一个拥有K个组元的混合高斯模型(GMM);该模型中的概率密度函数如下:
其中,在第k个混合模型中,αk是混合系数,μk是样本向量均值(维度为D×1),∑k是协方差矩阵(维度为D×D),这些参数共同构成一个向量:(维度为:(D2+D+1)×1),其中,vec()是矩阵向量化操作;(维度为:K(D2+D+1)×1),p(xn|μk,Σk)在方程(0.1)的定义为:
其中,det()是求行列式操作;本发明的主要目的是在GMM中估计向量θ的参数,这是一个优化问题;该优化问题可以用极大似然函数来表示:
其中,L(θ)为极大似然函数,定义为:
其中,X=[x1,x2,...,xN]维度为D×N。
3.根据权利要求1所述的一种基于增强在线搜索原理的混合高斯模型参数估计算法,其特征是所述步骤(2)包含以下步骤:
在上述极大似然函数问题(0.3)中,抽取的样本不知道是哪个分布抽取的,EM算法可以解决上述问题,该算法主要考虑了混合系数αk作为一种先验分布,即:p(zn=k)=αk;其中,zn为是一个潜在变量(表示为xn标签),p(zn=k)=αk表明该样本是第k个GMM组元的概率;因此,上述方程(0.4)极大似然...
【专利技术属性】
技术研发人员:向文涛,李建清,徐争元,刘宾,朱松盛,吴晓玲,王伟,
申请(专利权)人:南京医科大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。