一种视觉注视点提取的方法技术

技术编号:31798060 阅读:59 留言:0更新日期:2022-01-08 10:58
本发明专利技术公开了一种视觉注视点提取的方法,具体过程为:对于原始图像X,利用感知器提取聚焦图像块s

【技术实现步骤摘要】
一种视觉注视点提取的方法


[0001]本专利技术涉及机器学习
,具体涉及一种视觉注视点提取的方法。

技术介绍

[0002]“视觉注意”是智能系统维护自身目的的自主行为,这是注意问题的本质。注意能力是感知外界信息后,对巨量信息作出的第一反应。外来刺激的信息是否符合系统的目的就必然成为决定系统是否注意这个信息的依据,与目标相关的信息需关注。在机器学习领域范畴,有寻求合适的数学模型,模拟人类视觉系统的选择性注意功能的方法。
[0003]目前形成以下三种图像显著性部分提取数学模型:A.基于空间的视觉注意模型:它是一种自底向上的数据驱动模型,仅受感知数据的驱动将人的视点指导到场景中的显著区域,该区域通常与周围具有较强的对比度。该模型的思路为,根据输入的图像,首先通过滤波算法提取特征(颜色,亮度,运动,纹理等),对特征图进行分析融合得到兴趣图,最后通过一定的竞争机制,从兴趣图中多个待注意的候选区域中选出唯一的注意目标。B.基于对象的视觉注意模型:是一种自顶向下的任务导向驱动模型,由人的“认知因素”决定,比如知识、预期和当前的目标。模型思路为,对输入图像进行高斯金字塔的多尺度处理,形成粗尺度、较粗尺度、细尺度场景图分组,计算每个分组和子组的显著性,展开注意力竞争,模型自然地实现了层次化的选择关注方式,实现注意力的转移。C.自顶向下结合自底向上视觉聚焦方法:人类视觉系统指导注意力分配因素由这两个部分结合共同作用于视觉聚焦结果。近年来提出多种可计算的用以模拟人类的视觉注意机制这些模型包括:基于认知、贝叶斯、决策论、信息论、图模型、频域分析和基于模式分类的视觉注意模型。视觉注意计算建模取得巨大进展,并应用于目标检测与识别、视频质量评估。
[0004]视觉聚焦机制研究领域中颇具影响力这些算法虽然在相关实验中取得了一定效果,但是视觉注意模型难以模拟客观世界复杂场景中物体的显著性,如场景中吸引人们的关注点有视觉颜色、纹理、声音、味觉等,各模型的计算速度、执行效果、鲁棒性与人眼视觉系统还存在一定差距。尤其是自顶而下的有人类认知先验知识及情感心理因素决定的任务导向驱动模型的视觉聚焦技术应用效果差。所以对视觉注意建模方法的研究多集中于由数据驱动的自底向上的视觉注意过程,而基于任务驱动的自顶向下的视觉注意难以建模及分析,因此相关研究方法与理论较为有限。但渗透人的先验知识、预判意识的自顶向下的任务驱动视觉注意模型更符合人类视觉聚焦机制。如何进一步模拟视觉信息感知过程中显著性特征提取的注意区域选择机制,建立更符合人眼视觉特征的计算与分析模型,改善机器人视觉系统信息处理的效率是追求目标。

技术实现思路

[0005]针对现有技术的不足,本专利技术旨在提供一种视觉注视点提取的方法,应用深度学习技术中特征提取的强大能力结合强化学习技术中和环境交互能力实现完成视觉聚焦功能。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种视觉注视点提取的方法,具体过程为:
[0008](1)对于原始图像X,利用感知器提取聚焦图像块s
t

[0009](2)然后利用CNN评价网络输出聚焦图像块s
t
的分类可能性预测;
[0010](3)采用聚焦图像块s
t
的分类可能性p
c
的信息熵H(p
c
)评判聚焦图像块与周边图像的区别度,信息熵H(p
c
)的计算公式如下:
[0011][0012]c表示聚焦图像块s
t
的类别;
[0013](4)将信息熵作为环境的反馈,反馈回路采用强化学习计算每一次动作的积累回报,智能体Agent的积累回报指导寻找下一个聚焦图像块的位置。
[0014]进一步地,步骤(4)中,智能体Agent采用基于值函数方法中异策略时间差分学习算法的Q

learning算法迭代计算;策略是指状态到动作的映射,根据值函数改变策略,建立强化学习目标函数寻求最优的参数θ,使积累回报期望最大,π
θ
表示策略;根据强化学习结果即得到最优策略,指导在目前状态s
i
下该采取的动作a
i
,即下一步移动的聚焦方位;输出下一步聚焦的位置L
t+1
,进入提取下一个聚焦图像块的循环;目前状态s
t
即指当前的聚焦图像块,感知器提取的每一个聚焦图像块记为(s0,s1,s2...s
t
....s
T
),一条轨迹T+1步完成;R为对决策者的回报,T为步数。
[0015]进一步地,步骤(1)中,感知器提取聚焦图像块的过程为:通过函数映射获取聚焦图像块p(s
t
,l
t
)。
[0016]进一步地,步骤(2)中,利用CNN评价网络输出聚焦图像块s
t
的分类可能性预测的过程为:
[0017]1)确定聚焦图像块类别c;
[0018]2)聚焦图像块分类可能性预测概率p
c
=P(c|s
t
),CNN输出是一个softmax层,不一定每一步有输出,可设定K步后输出一个分类可能性预测概率;采用使p
c
为最大值时的c作为输入聚焦图像块的类别,即聚焦图像块的类别
[0019]本专利技术的有益效果在于:本专利技术方法中,将采集的一帧图像或一段视频(连续的多帧图像),经过基于强化学习的视觉聚焦方法选取图像空间某一聚焦图像块,然后通过一系列的聚焦图像块的理解获得对环境视场的理解,在此基础上结合机器人主观任务需求,可以驱动视觉系统仿生眼运动到某一姿态,达到模仿人眼聚焦凝视感兴趣区域的目的。
附图说明
[0020]图1为本专利技术方法的流程示意图。
具体实施方式
[0021]以下将结合附图对本专利技术作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围并不限于本实
施例。
[0022]现有视觉聚焦模型在处理速度和执行效果上仍远远弱于人眼的视觉注意过程,本实施例方法从机器学习角度出发,采用深度学习和强化学习技术并结合实现视觉聚焦点选择与转移的问题。
[0023]人类视觉看东西时从场景(视频序列)中聚焦一个个关注点,输出一系列的聚焦区域的图像块。区域的选择是序贯决策问题,可以采用马尔科夫决策过程框架表述。模拟人类看东西方式机器人视觉系统按照时间顺序处理输入,一次处理图片中不同的位置,逐渐将这些部分的信息结合起来,来建立一个该场景的理解或者环境的动态间隔表示。一方面可以减少非必要信息的干扰,降低噪声的影响,然后还可以减少计算量。
[0024]由于深度强化学习具备解决复杂问题的通用智能,采用强化学习定义问题和优化目标,深度学习解决特征提取、状态表示、策略表示等问题,会获得比传统数学建模方法更好的预期效果。基于视觉聚焦的任务驱动可以看作是一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉注视点提取的方法,其特征在于,具体过程为:(1)对于原始图像X,利用感知器提取聚焦图像块s
t
;(2)然后利用CNN评价网络输出聚焦图像块s
t
的分类可能性预测;(3)采用聚焦图像块s
t
的分类可能性p
c
的信息熵H(p
c
)评判聚焦图像块与周边图像的区别度,信息熵H(p
c
)的计算公式如下:c表示聚焦图像块s
t
的类别;(4)将信息熵作为环境的反馈,反馈回路采用强化学习计算每一次动作的积累回报,智能体Agent的积累回报指导寻找下一个聚焦图像块的位置。2.根据权利要求1所述的方法,其特征在于,步骤(4)中,智能体Agent采用基于值函数方法中异策略时间差分学习算法的Q

learning算法迭代计算;策略是指状态到动作的映射,根据值函数改变策略,建立强化学习目标函数寻求最优的参数θ,使积累回报期望最大,π
θ
表示策略;根据强化学习结果即得到最优策略,指导在目前状态s
i
下该采取的动...

【专利技术属性】
技术研发人员:段颖妮杨森林邓燕子李喜龙
申请(专利权)人:西安文理学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1