【技术实现步骤摘要】
基于深度马尔可夫模型的全景图像扫视路径预测方法
[0001]本专利技术涉及机遗传算法领域,特别涉及一种基于深度马尔可夫模型的全景图像扫视路径预测方法。
技术介绍
[0002]当前的全景图像扫视路径预测方法可以大致分为两类:基于显著性的方法和基于生成模型的方法。前者的基本思想是从显着图中采样预测的注视点。这种方法的性能高度依赖于显着图的性能。此外,构建一个令人满意的采样策略来解释时间相关的视觉行为是非常重要的。后一组方法利用生成模型,例如生成对抗网络(Generative Adversarial Network,GAN),来预测真实的扫视路径。然而,此类方法生成的扫视路径表现出对感兴趣区域的关注较少。此外,基于GAN的方法在确定扫视路径的长度方面不太灵活,并且通常会受到不稳定训练的影响。
[0003]上述研究均未完整处理观看行为的时间依赖性,而时间依赖性对于全景图像中的动态注视行为建模至关重要。对于时间序列数据,一种流行的方法是利用顺序模型,例如循环神经网络(Recurrent Neural Networks,RNN)。然而,这种确定性模型容易过度拟合,尤其是在小型全景图像数据库上。更重要的是,这类方法通常会做出简单化的假设,例如,一种选择是将显著性图连接到模型的隐藏状态,它假设网络通过从显著图中学习状态如何演变。然而,神经科学研究表明,除了自上而下和自下而上的特征外,记忆先验和场景语义是引导视觉注意力的重要来源。此外,要被识别为兴趣或被拒绝为干扰因素,目标必须与记忆中保存的目标模板进行比较。
专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,所述方法包括如下步骤:步骤1、利用选择的观看起始点对视觉状态进行初始化;步骤2、获取场景语义特征和历史视觉状态,利用转移函数控制当前时刻的视觉状态和历史视觉状态的转换,以历史视觉状态作为转移函数中视觉工作记忆的函数,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;步骤3、将当前时刻的视觉状态所对应的注视点参数化成三维高斯坐标,从三维高斯坐标中根据三维高斯密度采集注视点样本;从起点视觉状态开始,利用注视点样本来模拟发射过程,构建不同视觉状态下描述注视点的发射函数,利用发射函数预测不同视觉状态下当前时刻的注视点;步骤4、获取过去和未来真实观察的信息,所述过去和未来真实观察的信息为扫视路径任务中的用户真实注视点,将用户真实注视点利用变分推理推导出条件分布族;将预测不同视觉状态的注视点形成潜在视觉状态的后验分布,采用条件分布族来近似潜在视觉状态的后验分布,推理出潜在视觉状态的后验分布的近似值,利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径;步骤5、重复步骤2至步骤4,通过不断迭代转移函数和发射函数,直至获得并生成所需长度的预测扫视路径。2.根据权利要求1所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于, 在所述步骤1中,利用选择的观看起始点对视觉状态进行初始化存在如下关系式:;其中,是一个可学习的参数,表示线性神经网络,为初始化的视觉状态,表示观看起始点。3.根据权利要求2所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,在所述步骤2中,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征的方法具体包括如下步骤:S201、设置历史视觉状态作为视觉工作记忆的函数,采用转移函数控制当前时刻的视觉状态和历史视觉状态的转换;S202、利用用于时序动作定位的多阶段3D卷积网络提取当前场景下的场景语义特征,使得卷积访问输入图像的坐标,给定图像的坐标给定场景语义特征和历史视觉状态,利用场景语义特征和历史视觉状态生成高斯函数,利用转移函数从注视分布的高斯函数中采集视觉状态样本。4.根据权利要求3所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,注视分布的高斯函数表达式为:;
其中,表示采样操作,表示描述视觉状态的注视分布的高斯函数均值,表示描述视觉状态的注视分布的高斯函数方差,,表示实数的阶矩阵。5.根据权利要求4所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,高斯函数中注视分布的高斯函数均值和高斯函数方差的计算方法包括如下步骤:S2021、利用历史视觉状态和场景语义特征计算新的潜在视觉状态的注视分布;新的潜在视觉状态的注视分布表达式为:;其中,表示连接操作,表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习权重参数,,表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习偏置参数,;S2022、利用Sigmoid函数计算出历史视觉状态自适应的不确定性权重,进而自适应地得出前一个视觉状态的被更新分量,不确定性权重的表达式为:;其中,表示由历史视觉状态确定的不确定性权重,表示Sigmoid 函数,表示更新视觉状态时所采用线性神经网络中可学习的权重参数, ,表示实数的阶方阵,表示更新视觉状态时所采用线性神经网络中可学习的偏置参数,;S202...
【专利技术属性】
技术研发人员:方玉明,徐可烁,眭相杰,刘学林,鄢杰斌,左一帆,陈强,刘扬,
申请(专利权)人:盛景智能科技嘉兴有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。