一种基于MCMC的优化信息检索方法技术

技术编号:5164554 阅读:240 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于MCMC的优化信息检索方法,包括以下步骤:一、设定初始并行链数目n,根据检索数据生成n条Markov链;设定总迭代次数s;二、根据对效率和结果准确率的要求,设定最小距离值;三、设定预迭代次数m,对步骤一中的n条Markov链进行分段预迭代,得到每两条链之间的距离值。四、进行判断,判断任意两条链之间的距离值是否小于或者等于所设定的最小距离值;五、假如结果是,就将进行比较的这两条链合并看作一条链;六、判断迭代次数是否小于s,如果是则继续进行迭代,并在迭代完成时回到步骤四;否则停止迭代,通过该迭代后的Markov链可以决定遍历检索数据的路径。本发明专利技术在兼顾全局搜索准确率的同时保证一定的搜索效率,减轻硬件的负担。

【技术实现步骤摘要】

本专利技术涉及一种新的优化的信息检索方法,特别涉及一种基于MCMC进行优化的 信息检索方法,属于信息检索领域。
技术介绍
马尔可夫链蒙特卡罗(MCMC)方法的提出是随着蒙特卡罗技术的出现,直到20世 纪90年代早期,MCMC在贝叶斯统计中的应用才被大众开始慢慢认识。经过最近20年的发 展,MCMC方法的应用业已涉及了统计推断应用的方方面面,例如生物统计领域、统计物理 领域、控制理论、通信技术、信息科学领域。MCMC包含了两个基本内容蒙特卡罗积分和马尔可夫链。MCMC是利用Markov链 的机制探索状态空间以生成样本的方法,这种机制能够保证Markov链将更多的时间放在 最重要的区域,从而使它产生的样本能够模仿目标分布的样本。由于MCMC方法的以上特点,使得该方法在信息检索领域被大量采用。在信息检索 领域,通常使用该方法对检索结果进行全局的抽样处理,得到精简的结果集,提高检索的效 率;或者通过在仿真实验中使用该方法来对检索数据进行预测,将预测结果用于实际检索 数据,缩小检索的范围。在现有的使用MCMC模拟方法进行信息检索的过程中,大多数的研究往往局限于 对某一个问题的把握,例如对全局搜索结果的把握,而忽略了搜索的效率,或者仅仅针对如 何提高搜索的效率,而没有保证最终的搜索结果的准确度。因此,如何同时兼顾对全局搜索 准确率的把握,并且又能够保持一定的搜索效率,减轻硬件的负担成为一个非常有意义的 工作。在实际过程中,可能会拥有多条Morkov链,计算的难度会比较大,而且容易陷入 不能得到最优解的过程。
技术实现思路
本专利技术的目的是针对现有技术的不足,提高搜索的效率和对于全局搜索的把握能 力,寻求一种优化的信息检索方法。本专利技术提供了一种基于MCMC的优化信息检索方法,包括以下步骤一、设定初始并行链数目n,根据检索数据生成η条Markov链;设定总迭代次数s ;二、根据对效率和结果准确率的要求,设定最小距离值;三、设定预迭代时分段的迭代次数m,对步骤一中的η条Markov链进行分段预迭 代,得到每两条链之间的距离值,即每两条Markov链各段之间的欧式距离的平均值。四、进行判断,判断任意两条链之间的距离值是否小于或者等于所设定的最小距 离值;五、假如结果是,就将进行比较的这两条链合并看作一条链,新链上每一点的值为 原两条链的平均值,则η = n-1 ;六、判断迭代次数是否小于s,如果是则继续进行迭代,并在迭代完成时回到步骤 四;否则停止迭代,得到最终的结果,即迭代后的Markov链,通过该迭代后的Markov链可以 决定遍历检索数据的路径。有益效果本专利技术所述基于MCMC的优化信息检索方法可以根据实际的状况例如计算量的难 易程度去调控链的个数,从而控制和调整运算的时间,在兼顾全局搜索的准确率的同时保 证一定的搜索效率,减轻硬件的负担。附图说明 图1为MCGS检索方法流程图;图2为MCGH检索方法应用到检索数据al的迭代曲线(A);图3为MCGH检索方法应用到检索数据a2的迭代曲线(B);图4为MCGH检索方法应用到检索数据a3的迭代曲线(C)。具体实施例方式下面结合附图,具体说明本专利技术的优选实施方式。图1是所述基于MCMC的优化信息检索方法的流程图。本实施方式的具体步骤包 括一、设定初始并行链数目n,根据检索数据生成η条Markov链;设定总迭代次数s ;在本实施方式中,为了确保收敛性,模拟了三条马尔可夫链,即设定η = 3 ;设定总 共迭代s = 1500。通过统计软件,根据检索数据生成3条马尔可夫链。二、根据对效率和结果准确率的要求,设定最小距离值;最小距离需要是足够近的距离,但是又要设置的恰到好处,如果设的太大的话,虽 然容易减少Markov链的个数,但是会将实际距离差的比较远的两条链合并成一条链;同理 可知,如果这个距离设置的过小的话,容易使两个分布和性质相同的链不被发现,而达不到 提高运算效率的作用。在本实施方式中,初始设定最小距离值为0. 1。三、设定预迭代时分段的迭代次数m,对步骤一中的η条Markov链进行分段预迭 代,得到每两条链之间的距离值,即每两条Markov链各段之间的欧式距离的平均值;因为Markov链的迭代需要消耗很长时间,迭代的次数经常需要几千几万甚至更 多的次数,因此,需要分段对多个链之间的距离进行运算,然后对每个迭代区间的值取平均■VI-值。例如,第i次迭代的第m个链和第η个链之间的距离可以表示为Σ ~ nfi=i此处预迭代可采用多种方法,比如M-H方法,贝叶斯方法,但是通过仿真实验发现 经典Gibbs抽样算法效果最好,效率最高。本实施方式设定预迭代次数为500次,通过经典Gibbs抽样算法进行预迭代。迭 代过程可以使用统计软件完成,例如winbugs,R等。预迭代完成之后根据上面的距离公式 计算链之间的距离值。四、进行判断,判断任意两条链之间的距离值是否小于或者等于所设定的最小距离值;五、假如结果是,就将进行比较的这两条链合并看作一条链,新链上每一点的值为 原两条链的平均值,则η = n-1 ;六、判断迭代次数是否小于s,如果是则继续进行迭代,并在迭代完成时回到步骤 四;否则停止迭代,得到最终的结果,即迭代后的Markov链,通过该迭代后的Markov链可以 决定遍历检索数据的路径。针对本实施方式采用的方法,通过路径图对获得的Markov链进行检验。路径图 (Trace plot)描述的是链迭代时候产生的波动曲线。当链达到收敛时,此路径图就应该呈 现出稳定性,即比较平稳,没有明显的趋势和周期。图2、图3、图4分别为本实施方式应用到不 同的检索数据中的路径图。为为了确 保收敛性,本实施方式模拟了三条马尔可夫链,每条各迭代1500次,其中预迭代500次。从图2中可以看出,本实施方式一开始是采用了 Ll,L2,L3三条链对目标分布进行 搜索,上面一直交替迭代的两条链的统计平均值在迭代到50步左右的时候就基本一致了, 所以可以合并成一条链;在迭代到400步左右的时候,Ll和L3的统计平均值也比较接近, 因此也可以将其可以合并成一条链。在图2中,本方法最终以Ll链完成了对目标分布的抽 取。从图3中可以看出,本实施方式开始的三条链最终还是以合并成一条链完成对目 标分布的抽样。但是在图3中,将设定的最小距离值从0. 1提高到了 0. 3,因此链之间的迭 代很快就达到了最小距离,而链的合并时间也从图2的大约400步缩小到了 50步左右,很 明显的提高了计算的效率。从图4中可以看出,本实施方式最终的结果也是只搜索到一条链完成对目标分布 的抽取,就是这个迭代的过程中仅有一个局部解,显然从图中可以看出其抽样结果是不具 有代表性的,主要的原因是由于最小距离值设置的过大,所以使得本属于不同统计状态的 三个链,被合并成一个链,也可以看出将距离设置过大显然对于处理局部搜索分布的时候 效果并不是很好。在附图2,3,4中可以看出,用本专利技术的方法迭代的数据路径图是非常平稳的,并 没有出现明显的离群的轨迹,因此,从图形中可以认为是比较良好的拟合。根据上面得出的迭代结果可以知道需要根据实际情况对最小距离进行设置,如果 是如果是需要提高运算时间和减少对计算机的压力的时候,则可以适当的加大“最小距离” 值,但本文档来自技高网...

【技术保护点】
一种基于MCMC的优化信息检索方法,其特征在于,包括以下步骤:一、设定初始并行链数目n,根据检索数据生成n条Markov链;设定总迭代次数s;二、根据对效率和结果准确率的要求,设定最小距离值;三、设定预迭代时分段的迭代次数m,对步骤一中的n条Markov链进行分段预迭代,得到每两条链之间的距离值,即每两条Markov链各段之间的欧式距离的平均值。四、进行判断,判断任意两条链之间的距离值是否小于或者等于所设定的最小距离值;五、假如结果是,就将进行比较的这两条链合并看作一条链,新链上每一点的值为原两条链的平均值,则n=n-1;六、判断迭代次数是否小于s,如果是则继续进行迭代,并在迭代完成时回到步骤四;否则停止迭代,得到最终的结果,即迭代后的Markov链,通过该迭代后的Markov链可以决定遍历检索数据的路径。

【技术特征摘要】
一种基于MCMC的优化信息检索方法,其特征在于,包括以下步骤一、设定初始并行链数目n,根据检索数据生成n条Markov链;设定总迭代次数s;二、根据对效率和结果准确率的要求,设定最小距离值;三、设定预迭代时分段的迭代次数m,对步骤一中的n条Markov链进行分段预迭代,得到每两条链之间的距离值,即每两条Markov链各段之间的欧式距离的平均值。四、进行判断,判断任意两条链之间的距离值是否小于或者等于所设定的最小距离值;五、假如结果是,就将进行比较的这两条链合并看作一条链,新...

【专利技术属性】
技术研发人员:王维强牛振东赵育民
申请(专利权)人:北京理工大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1