一种基于眼动图推理的图像偏好预测方法技术

技术编号:35870323 阅读:32 留言:0更新日期:2022-12-07 11:04
本发明专利技术公开了一种基于眼动图推理的图像偏好预测方法。本方法主要包括眼动数据分析和图像语义特征分析两部分。眼动数据分析部分,首先采用图卷积网络对眼动轨迹、注视点和眼跳等多种眼动特征进行图嵌入表示。为了同时捕捉眼睛在观察刺激物时的时空相关性,采用图卷积网络学习眼动图的拓扑结构,捕获空间相关性;然后采用门控循环单元学习眼动图的时序变化,捕获时间相关性,再基于空间相关性和时间相关性输出眼动时空拓扑特征向量。图像语义特征分析部分,通过标准卷积网络块对图像进行语义特征学习,再通过全局平均池化得到图像的语义特征向量。最后将眼动时空拓扑特征向量和图像的语义特征向量融合后,经过全连接层和激活函数得到喜爱度分值的预测。得到喜爱度分值的预测。得到喜爱度分值的预测。

【技术实现步骤摘要】
一种基于眼动图推理的图像偏好预测方法


[0001]本专利技术涉及情感识别领域,尤其涉及一种基于眼动图推理的图像偏好预测方法。

技术介绍

[0002]如今,计算机视觉的相关研究已经从对视觉场景中的物体检测、物体识别发展到语义理解的阶段。但如何让机器自动地分析和判断人与视觉场景刺激的情绪与情感交互关系依然是一个非常有挑战性的任务。常见的情感计算模型为多模态联合预测方式,但当前的研究方向集中在文本,语音和图像三大模态,另外也有少量研究者辅以生理信号比如脑电,近红外脑功能成像等,但数据获取较难,手段较为复杂。认知心理学表明,人的眼动信息与心理活动息息相关。人的眼动生理行为不仅反应人类获取视觉信息的探索过程,各类眼动指标也反应观察者的心理变化过程,比如瞳孔的大小反映人对当前刺激的情感激发程度,兴趣区平均驻留时间反映受众对当前刺激区域的关注程度,眼动轨迹揭示被试的完整的认知加工过程,体现认知负荷和兴趣特征,等等。另外,当前光学传感器飞速发展,日常可用的多目移动高精摄像设备更加普及,为快速低成本地获取人眼信息提供极大便利,为研究眼动行为与心理认知提供了日益完备的硬件技术支持。
[0003]鉴于文本、语音和图像或视频属于排列整齐的欧几里何数据,处理这类欧式数据的技术已经很成熟,而由注视点和眼跳组成的眼动轨迹属于非欧式数据(non

Eucliden domain data),无法采用常规手段加以处理和建模。

技术实现思路

[0004]针对以上问题,本专利技术提出一种基于眼动图推理的图像偏好预测方法。
[0005]为实现本专利技术的目的,提供一种基于眼动图推理的图像偏好预测方法,包括如下步骤:
[0006]S1:通过采集设备获取待测对象观察预设的原图时的眼动数据,再对所述眼动数据进行图嵌入表示,得到图嵌入表示的输出结果;
[0007]S2:采用图卷积网络学习所述图嵌入表示的输出结果中的眼动图的拓扑结构,并基于所述眼动图的拓扑结构对偏好与眼动图的空间依赖关系进行建模,并得到偏好与眼动图的空间相关性;然后采用门控循环单元学习所述图嵌入表示的输出结果中的注视过程中眼动的时序变化信息,并基于所述注视过程中眼动的时序变化信息对偏好与眼动图的时间依赖关系进行建模,并得到偏好与眼动图的时间相关性;最后基于所述偏好与眼动图的空间相关性和时间相关性,输出眼动时空拓扑特征向量;
[0008]S3:采用标准卷积网络块对所述预设的原图进行语义特征学习,并通过全局平均池化操作得到所述预设的原图的语义特征向量;
[0009]S4:将所述眼动时空拓扑特征向量和所述预设的原图的语义特征向量在高维空间进行特征融合,再经过全连阶层和激活函数,即得到待测对象对预设的原图的喜爱度分值。
[0010]进一步地,所述步骤S1中的采集设备选用:高精摄像头或者眼动追踪设备。
[0011]进一步地,所述步骤S1中的眼动数据包括:注视点特征数据和眼跳特征数据;
[0012]所述注视点特征数据包括:注视点位置坐标、注视时长、注视点时序、扫描路径、瞳孔直径以及前后注视点的方向和距离;
[0013]所述眼跳特征数据包括:眼跳幅度、眼跳时长、眼跳角速度、眼跳方向和扫视速度。
[0014]进一步地,所述步骤S1中,对所述眼动数据进行图嵌入表示的具体过程包括:
[0015]采用One

Hot编码规则把所述注视点特征数据编码为眼动图网络结构的节点特征矩阵;采用One

Hot编码规则把所述眼跳特征数据编码为眼动图网络结构的边特征矩阵。
[0016]进一步地,所述步骤S4中,特征融合采用的方式为拼接。
[0017]进一步地,所述步骤S4中,待测对象对预设的原图的喜爱度分值包括:1、2、3、4、5、6、7,一共7个分值,其中,1代表非常不喜欢,7代表非常喜欢,4代表既不喜欢也不讨厌,数值从低到高表示喜爱的程度逐渐递增。
[0018]跟现有技术相比,本专利技术具有以下有益的技术效果:
[0019]文本、语音和图像是当前的多模态情感计算模型主要的研究基础和对象,而本专利技术通过图神经网络对眼动生理行为进行建模,来测量受众对视觉刺激的情感偏向,扩展了情感识别研究的维度空间。
[0020]当前的视觉情感感知和计算的研究依赖大量用户对视觉刺激的“结果性”反馈,比如:点击率、浏览记录、收藏、评论、点赞等数据,从中获取情感因素,而本专利技术以视觉认知的“过程性”为导向,为难以获取以上用户数据且有实时性要求的场景提供了自动化情感推测新思路,即,对用户的眼动行为进行建模和情感推理,为测量视觉刺激与用户心理决策关系提供了一个新的有效的计算范式。
附图说明
[0021]图1是一个实施例的基于眼动图推理的图像偏好预测方法的流程示意图;
[0022]图2是一个实施例的基于眼动图推理的图像偏好预测方法的结构示意图;
[0023]图3是一个实施例的基于眼动图推理的图像偏好预测方法的图卷积网络原理图;
[0024]图4是一个实施例的基于眼动图推理的图像偏好预测方法的门控循环单元结构图。
具体实施方式
[0025]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0026]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0027]考虑到眼动轨迹拓扑结构天然可视为一种以注视点为节点,以眼跳为边的图结构,且图神经网络已经在处理譬如社交网络,推荐系统,金融风控,物理系统,分子化学,生命科学,知识图谱,交通预测等非欧数据领域中显示了其有效性,因此,本专利技术基于图神经
网络架构从眼动数据分析的角度提出一种基于眼动图推理的图像偏好预测方法。本专利技术对眼动信息,包括注视点,眼跳,注视时间,瞳孔大小,注视路径等眼动特征进行图嵌入表示,然后分别通过眼动数据分析和图像语义特征分析,进而推理出待测对象的情感偏向,即喜爱度分值,以此构成本专利技术的核心内容。
[0028]参考图1和图2所示,本专利技术提出一种基于眼动图推理的图像偏好预测方法,包括如下步骤:
[0029]S1:通过采集设备获取待测对象观察预设的原图时的眼动数据,再对所述眼动数据进行图嵌入表示,得到眼动图的拓扑结构和时序变化信息;
[0030]S2:构建眼动时空特征学习模块。采用图卷积网络(Graph Convolutional Network,GCN)学习所述眼动图的拓扑结构,并基于所述眼动图的拓扑结构对偏好与眼动图的空间依赖关系进行建模,得到偏好与眼动图的空间相关性;然后采用门控循环单元(Gate本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于眼动图推理的图像偏好预测方法,其特征在于,包括如下步骤:S1:通过采集设备获取待测对象观察预设的原图时的眼动数据,再对所述眼动数据进行图嵌入表示,得到眼动图的拓扑结构和时序变化信息;S2:采用图卷积网络学习所述眼动图的拓扑结构,并基于所述眼动图的拓扑结构对偏好与眼动图的空间依赖关系进行建模,得到偏好与眼动图的空间相关性;然后采用门控循环单元学习所述眼动图的时序变化信息,并基于所述眼动图的时序变化信息对偏好与眼动图的时间依赖关系进行建模,得到偏好与眼动图的时间相关性;最后基于所述偏好与眼动图的空间相关性和时间相关性,输出眼动时空拓扑特征向量;S3:采用标准卷积网络块对所述预设的原图进行语义特征学习,并通过全局平均池化操作得到所述预设的原图的语义特征向量;S4:将所述眼动时空拓扑特征向量和所述预设的原图的语义特征向量在高维空间进行特征融合,再经过全连阶层和激活函数,即得到待测对象对预设的原图的喜爱度分值。2.根据权利要求1所述的一种基于眼动图推理的图像偏好预测方法,其特征在于,所述步骤S1中的采集设备选用:高精摄像头或者眼动追踪设备。3.根据权利要求2所述的一种基于眼动图推理的图像偏好预...

【专利技术属性】
技术研发人员:张永福袁广振张会柱赵金升梁松
申请(专利权)人:徐州华讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1