基于深度马尔可夫模型的全景图像扫视路径预测方法技术

技术编号:37987318 阅读:7 留言:0更新日期:2023-06-30 10:01
本发明专利技术提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法,利用选择的观看起始点对视觉状态进行初始化;根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;并从三维高斯坐标中根据三维高斯密度采集注视点样本,通过从参数化的三维高斯密度中采样来模拟发射过程,构建不同视觉状态下描述注视点的发射函数,预测当前时刻的注视点,扫视路径任务中的用户真实注视点,将用户真实注视点利用变分推理潜在视觉状态的后验分布,预测全景图像的扫视路径,通过不断迭代转移函数和发射函数,直至获得并生成所需长度的预测扫视路径。本发明专利技术提出一种初始化视觉状态的策略,可以灵活地指定一个特定的起点用于扫视路径生成。于扫视路径生成。于扫视路径生成。

【技术实现步骤摘要】
基于深度马尔可夫模型的全景图像扫视路径预测方法


[0001]本专利技术涉及机遗传算法领域,特别涉及一种基于深度马尔可夫模型的全景图像扫视路径预测方法。

技术介绍

[0002]当前的全景图像扫视路径预测方法可以大致分为两类:基于显著性的方法和基于生成模型的方法。前者的基本思想是从显着图中采样预测的注视点。这种方法的性能高度依赖于显着图的性能。此外,构建一个令人满意的采样策略来解释时间相关的视觉行为是非常重要的。后一组方法利用生成模型,例如生成对抗网络(Generative Adversarial Network,GAN),来预测真实的扫视路径。然而,此类方法生成的扫视路径表现出对感兴趣区域的关注较少。此外,基于GAN的方法在确定扫视路径的长度方面不太灵活,并且通常会受到不稳定训练的影响。
[0003]上述研究均未完整处理观看行为的时间依赖性,而时间依赖性对于全景图像中的动态注视行为建模至关重要。对于时间序列数据,一种流行的方法是利用顺序模型,例如循环神经网络(Recurrent Neural Networks,RNN)。然而,这种确定性模型容易过度拟合,尤其是在小型全景图像数据库上。更重要的是,这类方法通常会做出简单化的假设,例如,一种选择是将显著性图连接到模型的隐藏状态,它假设网络通过从显著图中学习状态如何演变。然而,神经科学研究表明,除了自上而下和自下而上的特征外,记忆先验和场景语义是引导视觉注意力的重要来源。此外,要被识别为兴趣或被拒绝为干扰因素,目标必须与记忆中保存的目标模板进行比较。
专利技术内容
[0004]鉴于上述状况,本专利技术的主要目的是为了提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法,以解决上述技术问题。
[0005]本专利技术实施例提供了一种基于深度马尔可夫模型的全景图像扫视路径预测方法,所述方法包括如下步骤:步骤1、利用选择的观看起始点对视觉状态进行初始化;步骤2、获取场景语义特征和历史视觉状态,利用转移函数控制当前时刻的视觉状态和历史视觉状态的转换,以历史视觉状态作为转移函数中视觉工作记忆的函数,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;步骤3、将当前时刻的视觉状态所对应的注视点参数化成三维高斯坐标,从三维高斯坐标中根据三维高斯密度采集注视点样本;从起点视觉状态开始,利用注视点样本来模拟发射过程,构建不同视觉状态下描述注视点的发射函数,利用发射函数预测不同视觉状态下当前时刻的注视点;步骤4、获取过去和未来真实观察的信息,过去和未来真实观察的信息即扫视路径任务中的用户真实注视点,将用户真实注视点利用变分推理推导出条件分布族,将预测不
同视觉状态的注视点形成潜在视觉状态的后验分布,采用条件分布族来近似潜在视觉状态的后验分布,推理出潜在视觉状态的后验分布的近似值,利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径;步骤5、重复步骤2至步骤4,通过不断迭代转移函数和发射函数,直至获得并生成所需长度的预测扫视路径。
[0006]本专利技术提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法,采用起点的状态初始化策略,有助于模型专注于学习具有正确“启动器”的状态动态建模,使该模型能够为扫视路径生成分配一个特定的起点,能够通过正确的“发射器”学习动力学。
[0007]本专利技术的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实施例了解到。
附图说明
[0008]图1为本专利技术提出的基于深度马尔可夫模型的全景图像扫视路径预测方法的流程图;图2为本专利技术提出的基于深度马尔可夫模型的全景图像扫视路径预测方法的算法流程图;
具体实施方式
[0009]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0010]参照下面的描述和附图,将清楚本专利技术的实施例的这些和其他方面。在这些描述和附图中,具体公开了本专利技术的实施例中的一些特定实施方式,来表示实施本专利技术的实施例的原理的一些方式,但是应当理解,本专利技术的实施例的范围不受此限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0011]请参阅图1和图2,其中图1为本专利技术流程图,图2为本专利技术算法流程图,从图2中可以得知的是,本专利技术预先将视觉状态初始化,然后得出发射函数和转移函数,通过迭代发射函数和转移函数预测扫视路径。
[0012]本专利技术提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法,其中,所述方法包括如下步骤:步骤1、利用选择的观看起始点对视觉状态进行初始化;利用选择的观看起始点对视觉状态进行初始化存在如下关系式:;其中,是一个可学习的参数, 表示线性神经网络,为初始化的视觉状态,表示观看起始点。
[0013]不同于常见策略简单地将初始状态设置为零向量或随机向量,本专利技术提出一种考
虑扫视路径起点的实用策略,动机来自最近的研究揭示了全景图像观看的起始点对用户扫视路径有重要影响。本专利技术的模型更好地专注于使用正确的“启动器”而不是从随机的初始状态开始学习视觉状态的动态,在训练阶段,直接使用观看起始点来初始化。
[0014]此种配置的优势是:本专利技术可以灵活地指定一个特定的起点用于扫视路径生成,在一些视觉任务中(例如全景图像质量评估)是至关重要的。值得注意的是,为了公平地将本专利技术模型与其他扫视路径预测模型进行比较,在模型评估中,本专利技术实施例从覆盖整个经度和20%纬度的赤道偏置图中随机抽取起始点。
[0015]步骤2、获取场景语义特征和历史视觉状态,利用转移函数控制当前时刻的视觉状态和历史视觉状态的转换,以历史视觉状态作为转移函数中视觉工作记忆的函数,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;具体的,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征的方法具体包括如下步骤:S201、设置历史视觉状态作为视觉工作记忆的函数,采用转移函数控制当前时刻的视觉状态和历史视觉状态的转换;S202、利用S

CNN(用于时序动作定位的多阶段 3D 卷积网络)提取当前场景下的场景语义特征,利用CoordConv策略使得卷积访问输入图像的坐标,给定图像的坐标给定场景语义特征和历史视觉状态,利用场景语义特征和历史视觉状态生成高斯函数,利用转移函数从注视分布的高斯函数中采集视觉状态样本。
[0016]上述方案中,注视分布的高斯函数表达式为:;其中,表示采样操作,表示描述视觉状态的注视分布的高斯函数均值,表示描述视觉状态的注视分布的高斯函数方差,,表示实数的阶矩阵;具体的,高斯函数中注视分布的高斯函数均值和高斯函数方差的计算方法包括如下步骤:S2021、利用历史视觉状态和场景语义特征计算新的潜在视觉状态的注视分布;新的潜在视觉状态的注视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,所述方法包括如下步骤:步骤1、利用选择的观看起始点对视觉状态进行初始化;步骤2、获取场景语义特征和历史视觉状态,利用转移函数控制当前时刻的视觉状态和历史视觉状态的转换,以历史视觉状态作为转移函数中视觉工作记忆的函数,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;步骤3、将当前时刻的视觉状态所对应的注视点参数化成三维高斯坐标,从三维高斯坐标中根据三维高斯密度采集注视点样本;从起点视觉状态开始,利用注视点样本来模拟发射过程,构建不同视觉状态下描述注视点的发射函数,利用发射函数预测不同视觉状态下当前时刻的注视点;步骤4、获取过去和未来真实观察的信息,所述过去和未来真实观察的信息为扫视路径任务中的用户真实注视点,将用户真实注视点利用变分推理推导出条件分布族;将预测不同视觉状态的注视点形成潜在视觉状态的后验分布,采用条件分布族来近似潜在视觉状态的后验分布,推理出潜在视觉状态的后验分布的近似值,利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径;步骤5、重复步骤2至步骤4,通过不断迭代转移函数和发射函数,直至获得并生成所需长度的预测扫视路径。2.根据权利要求1所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于, 在所述步骤1中,利用选择的观看起始点对视觉状态进行初始化存在如下关系式:;其中,是一个可学习的参数,表示线性神经网络,为初始化的视觉状态,表示观看起始点。3.根据权利要求2所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,在所述步骤2中,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征的方法具体包括如下步骤:S201、设置历史视觉状态作为视觉工作记忆的函数,采用转移函数控制当前时刻的视觉状态和历史视觉状态的转换;S202、利用用于时序动作定位的多阶段3D卷积网络提取当前场景下的场景语义特征,使得卷积访问输入图像的坐标,给定图像的坐标给定场景语义特征和历史视觉状态,利用场景语义特征和历史视觉状态生成高斯函数,利用转移函数从注视分布的高斯函数中采集视觉状态样本。4.根据权利要求3所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,注视分布的高斯函数表达式为:;
其中,表示采样操作,表示描述视觉状态的注视分布的高斯函数均值,表示描述视觉状态的注视分布的高斯函数方差,,表示实数的阶矩阵。5.根据权利要求4所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,高斯函数中注视分布的高斯函数均值和高斯函数方差的计算方法包括如下步骤:S2021、利用历史视觉状态和场景语义特征计算新的潜在视觉状态的注视分布;新的潜在视觉状态的注视分布表达式为:;其中,表示连接操作,表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习权重参数,,表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习偏置参数,;S2022、利用Sigmoid函数计算出历史视觉状态自适应的不确定性权重,进而自适应地得出前一个视觉状态的被更新分量,不确定性权重的表达式为:;其中,表示由历史视觉状态确定的不确定性权重,表示Sigmoid 函数,表示更新视觉状态时所采用线性神经网络中可学习的权重参数, ,表示实数的阶方阵,表示更新视觉状态时所采用线性神经网络中可学习的偏置参数,;S202...

【专利技术属性】
技术研发人员:方玉明徐可烁眭相杰刘学林鄢杰斌左一帆陈强刘扬
申请(专利权)人:盛景智能科技嘉兴有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1