一种向量化分布式并行的TMCMC随机抽样算法制造技术

技术编号:21454095 阅读:101 留言:0更新日期:2019-06-26 04:49
本发明专利技术涉及一种向量化分布式并行的TMCMC随机抽样算法,包括以下步骤:通过元素运算方式和矩阵运算方式,对目标函数进行向量化,得到向量化的目标函数,即向量化的后验概率密度函数;搭建基于MATLAB Distributed Computing Server工具箱的分布式计算平台;在所述分布式计算平台上运行向量化分布式并行的TMCMC算法,进而求解目标函数。本发明专利技术能够在保证计算精度的前提下,大大提高了计算效率,缩短了计算时间。

【技术实现步骤摘要】
一种向量化分布式并行的TMCMC随机抽样算法
本专利技术属于贝叶斯方法中的随机抽样算法技术,具体地讲涉及一种向量化分布式并行的TMCMC随机抽样算法。
技术介绍
在采用贝叶斯理论进行统计推断时,从理论上说,对于任何先验分布,只需根据贝叶斯理论,计算出所需后验分布的特性,如后验分布的矩(后验均值、后验方差)、后验概率密度函数等;其本质就是计算后验分布涉及函数的高维积分。但是在实际应用中,很多时候监测资料较少,往往未知参数的后验分布多呈高维、复杂的非常见分布,计算十分困难。随机抽样的方法可以突破这一原本极为困难的计算问题,它通过模拟的方式对高维积分进行计算,进而解决了十分复杂的高维积分计算问题,而且随机抽样方法不论监测资料的多少,都可以进行抽样,进而估算出后验概率密度函数,这大大促进了贝叶斯方法的在各领域发展应用。在贝叶斯理论中,最常用的随机抽样方法就是马尔科夫链蒙特卡洛(MarkovChainMonteCarlo,简写为MCMC)方法。传统的MCMC方法当遇到多峰形态的或者十分尖锐或者十分平坦的后验概率密度函数时,很有可能发生马尔科夫链不能跑遍整个样本空间的情况,即出现不遍历(non-ergodic),样本很可能被困于“局部陷阱”,或者参数的维度很高时,往往估算结果不准确甚至失效。此外,传统MCMC方法无法估算出模型的评分,因此无法进行模型选择而找出较具可能性的模型,无法解决模型种类的不确定性的问题。而渐进马尔科夫链蒙特卡洛法(TransitionalMarkovChainMonteCarlo,简写为TMCMC)可以避免上面的问题,采样成功率更高,适用范围更广,并且可以获得模型评分,因而得到了较为广泛的应用。但是现有的TMCMC随机抽样算法主要存在以下问题:首先,由于后验概率密度函数往往维度高、形式复杂,尤其是似然函数的计算耗费随采样点数、采样时长的增加而显著增加,因而计算速度较慢;其次,由于TMCMC本身基于MCMC算法的特性,且分阶段进行抽样,一次运算可能需要抽样数个甚至数十个阶段,因而带来了更多的计算耗费,尤其遇到大型结构,计算耗时更为惊人,往往修正一次需要数十小时甚至数百小时的时间耗费,这大大限制了所提方法以及多数贝叶斯抽样修正方法的应用。
技术实现思路
根据现有技术中存在的问题,本专利技术提供了一种向量化分布式并行的TMCMC随机抽样算法,其能够在保证计算精度的前提下,大大提高了计算效率,缩短了计算时间。为实现上述专利技术目的,本专利技术提供了一种向量化分布式并行的TMCMC随机抽样算法,包括如下步骤:S1,对需要通过TMCMC随机抽样算法计算的目标函数进行向量化,得到向量化的目标函数,即向量化的后验概率密度函数;S2,搭建基于MATLABDistributedComputingServer工具箱的分布式计算平台;S3,在所述分布式计算平台上运行向量化分布式并行的TMCMC算法,进而求解目标函数。优选的,所述步骤S2包括如下步骤:S21,将多台计算机通过网络相互连通形成一个集群,实现计算资源、通信资源、信息资源全面共享,每台计算机构成一个计算节点;S22,将MATLABDistributedComputingServer工具箱安装在客户端计算机中,用户通过工具箱中的配置管理器完成集群调度策略、调度程序类型、以及路径的设置;S23,通过工具箱中的作业管理器定义和建立任务、协调分发各任务,所述作业管理器将各任务的计算结果汇总返回给客户端计算机。更进一步优选的,所述步骤S3包括如下步骤:S31,根据贝叶斯理论,向量化的目标函数,即向量化的后验概率密度函数f(θi|Mi,D)表示如下:f(θi|Mi,D)∝f(θi|Mi)·f(D|Mi,θi)(1)其中,f(D|Mi,θi)表示θi的似然函数,f(θi|Mi)表示θi的先验概率密度函数,Mi表示系统模型,即表征生产生活中某一系统的抽象数学模型,下标i表示第i个模型类,i=1,2,…,∞,系统模型由模型参数描述,模型参数即为系统抽象出来的数学模型中的自变量,θi表示第i个模型类对应的模型参数,D表示实际系统或者模拟系统的监测数据,监测数据包括系统的输入和输出数据;S32,非正则化的中间概率密度函数表示如下:其中,mi表示总的阶段数,表示第i个模型类第j个阶段的中间概率密度函数与后验概率密度函数的比例因子,S33,从先验概率密度函数中抽取样本向量,表示样本集合,下标k表示第k个样本,N表示先验概率密度函数采样的样本总数;再采用分布式并行的手段并行计算样本集合中每个采样点的似然函数的函数值;配置管理器自主的分配样本集合中的每个采样点的似然函数的函数值的计算工作给每个计算节点,进行并行计算;S34,根据第j阶段似然函数的函数值集合的变异系数的选定值计算可能性权重向量中的每一阶段的数值其中表示第i个模型类第j个阶段的模型参数中第k个样本,每一阶段的数值表示为:且将每一个的计算任务分发给每个计算节点并行计算,其中表示第i个模型类第j个阶段的模型参数中第k个样本的权重;S35,接着按下式根据重采样程序重采样得到其中,w.p.表示以概率,概率越大则表示该样本具有相对更大的概率密度值而更为可能被接受进入下一阶段l表示依概率重采样得到的本阶段样本的样本序号,它可以是k=1,2,…,N中重复的数字,总共有N个,按顺序即为下一阶段的第k个样本这N个组成集合表示为其中为第i个模型类第j+1个阶段的模型参数中第k个样本,其似然函数值向量表示为然后使重采样的样本随机游走,以矩阵运算的方式替代循环运算,同时从N个均值为方差为的正态分布中取得总共N个构成的向量,即:其中,上标c表示正态分布取得的样本代号,表示重采样的样本随机游走后得到新样本向量,{N(0,1)}表示标准正态分布随机生成的数据向量,表示如下:其中,β为比例因子,表示第i个模型类第j个阶段的样本向量,表示第i个模型类第j个阶段的模型参数中由各个样本的权重组成的向量;S36,由于各采样点采样过程相互独立,因此采用分布式并行的手段并行计算中每个采样点的似然函数的函数值;再以样本集合内每个元素一一对应的的接受概率,使否则不变化,即至此,可取得第j+1阶段的样本以及似然函数值向量S37,重复步骤S33~S36,从j=0,1,2,…,mi-1,随阶段数的增加逐渐增大,当时,进入最后阶段,令分别从中抽取样本向量,并计算各样本集合中每个采样点的似然函数的函数值;S38,经过mi个阶段算法结束,取得的样本将渐进的呈f(θi|Mi,D)分布;是f(D|Mi)的渐进无偏估计,Si是系统的各种不同模型的证据值,即各模型的评分,评分越高,表明该模型越接近真实模型;根据大数定理,在给定监测数据D和模型类Mi的前提下,任何最可能值的估算值均可由下式估算得到:其中,ui表示任何参数的最可能取值;E[ui|Mi,D]表示在给定监测数据D和模型类Mi的前提下,任何最可能值的估算值;表示最后阶段任何最可能值u的样本值;≡表示恒等于符号,是用TMCMC估算的任何最可能值的记号;贝叶斯模型平均表示为:其中,n表示模型类的总个数,E[u|D]表示给定监测数据D的前提下,最可能值u的期望,E[u|D]是模型种类平均后的结果;Si是各模型的证据值;P(Mi)是各模型事先的本文档来自技高网
...

【技术保护点】
1.一种向量化分布式并行的TMCMC随机抽样算法,其特征在于,包括如下步骤:S1,对需要通过TMCMC随机抽样算法计算的目标函数进行向量化,得到向量化的目标函数,即向量化的后验概率密度函数;S2,搭建基于MATLAB Distributed Computing Server工具箱的分布式计算平台;S3,在所述分布式计算平台上运行向量化分布式并行的TMCMC算法,进而求解目标函数。

【技术特征摘要】
1.一种向量化分布式并行的TMCMC随机抽样算法,其特征在于,包括如下步骤:S1,对需要通过TMCMC随机抽样算法计算的目标函数进行向量化,得到向量化的目标函数,即向量化的后验概率密度函数;S2,搭建基于MATLABDistributedComputingServer工具箱的分布式计算平台;S3,在所述分布式计算平台上运行向量化分布式并行的TMCMC算法,进而求解目标函数。2.根据权利要求1所述的一种向量化分布式并行的TMCMC随机抽样算法,其特征在于,所述步骤S2包括如下步骤:S21,将多台计算机通过网络相互连通形成一个集群,实现计算资源、通信资源、信息资源全面共享,每台计算机构成一个计算节点;S22,将MATLABDistributedComputingServer工具箱安装在客户端计算机中,用户通过工具箱中的配置管理器完成集群调度策略、调度程序类型、以及路径的设置;S23,通过工具箱中的作业管理器定义和建立任务、协调分发各任务,所述作业管理器将各任务的计算结果汇总返回给客户端计算机。3.根据权利要求2所述的一种向量化分布式并行的TMCMC随机抽样算法,其特征在于,所述步骤S3包括如下步骤:S31,根据贝叶斯理论,向量化的目标函数,即向量化的后验概率密度函数f(θi|Mi,D)表示如下:f(θi|Mi,D)∝f(θi|Mi)·f(D|Mi,θi)(1)其中,f(D|Mi,θi)表示θi的似然函数,f(θi|Mi)表示θi的先验概率密度函数,Mi表示系统模型,即表征生产生活中某一系统的抽象数学模型,下标i表示第i个模型类,i=1,2,…,∞,系统模型由模型参数描述,模型参数即为系统抽象出来的数学模型中的自变量,θi表示第i个模型类对应的模型参数,D表示实际系统或者模拟系统的监测数据,监测数据包括系统的输入和输出数据;S32,非正则化的中间概率密度函数fij(θi)表示如下:其中,mi表示总的阶段数,表示第i个模型类第j个阶段的中间概率密度函数与后验概率密度函数的比例因子,fi0(θi)=f(θi|Mi),S33,从先验概率密度函数f(θi|Mi)=fi0(θi)中抽取样本向量,表示样本集合,下标k表示第k个样本,N表示先验概率密度函数采样的样本总数;再采用分布式并行的手段并行计算样本集合中每个采样点的似然函数的函数值;配置管理器自主的分配样本集合中的每个采样点的似然函数的函数值的计算工作给每个计算节点,进行并行计算;S34,根据第j阶段似然函数的函数值集合的变异系数的选定值计算可能性权重向量中的每一阶段的数值其中表示第i个模型类第j个阶段的模型参数中第k个样本,每一阶段的数值表示为:且将每一个的计算任务分发给每个计算节点并行计算,其中表示第i个模型类第j个阶段的模型参数中第k个样本的权重;S35,接着按下式根据重采样程序重采样得到fij+1(θi):其中,w.p.表示以概率,概率越大则表示该样本具有相对更大的概率密度值而更为可能被接受进入下一阶段fij+1(θi);l表示依概率重采样得到的本阶段样本的样本序号,它可以是k=...

【专利技术属性】
技术研发人员:曹诗泽颜王吉任伟新
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1