基于多尺度卷积的眼动事件检测方法技术

技术编号:38144954 阅读:10 留言:0更新日期:2023-07-08 10:02
本发明专利技术公开基于多尺度卷积的眼动事件检测方法,包括以下步骤:步骤1、眼动序列的预处理;步骤2,利用UNet模型对差分眼动序列进行多尺度特征提取与特征融合;步骤3,使用循环神经网络模拟眼动事件序列;步骤4、使用线性全连接层和Softmax将眼动序列中每一时刻的样本点分类为注视、眼跳和眼跳后震荡,实现眼动事件检测;步骤5、使用事件级Cohen

【技术实现步骤摘要】
基于多尺度卷积的眼动事件检测方法


[0001]本专利技术属于眼动事件检测
,具体涉及一种基于多尺度卷积的眼动事件检测方法。

技术介绍

[0002]眼动事件检测的目的是从眼动仪提取的原始眼球运动数据中准确鲁棒地提取注视、眼跳和眼跳后震荡等眼睛运动事件,其中关键挑战之一是学习到眼动序列中各个眼动事件的相关性,捕捉到与各个眼动事件相关的时间和空间信息。传统的基于模型的检测方法依赖于手工特征(眼睛位置、速度、加速度等),这些传统方法的检测效果不仅受限于特征提取方法的可靠性,而且难以处理多种类型的眼动事件检测,同时这类方法往往带有许多可调参数或硬编码参数,需要大量的经验知识进行调参。
[0003]新的发展是基于机器学习技术的事件检测方法的出现。Tafaj等人(2012)提出了一种贝叶斯混合模型(BMM)的机器学习方法,使用瞬时速度来学习表示注视和眼跳的高斯分布的参数,该方法被开发用于驾驶过程中的辅助,并且使用驾驶数据进行测试。Santini等人(2015)使用不同的方法将对平稳追踪事件的分类添加到BMM算法中,注视和眼跳的分类方法与BMM算法相同,而平稳追踪的概率通过速度和移动率来计算。以上方法采用的仍然是手工设计的特征,只不过在分类器设计上使用了机器学习方法。
[0004]近年来,深度学习的发展越来越迅速,其深层次和数据驱动的体系结构使许多任务取得了非常显著的性能提升,但对于眼动事件检测领域来说,其深度学习方法的应用相对来说较少。最早在眼动事件检测领域使用深度学习方法的是Hoppe和Bulling(2016)提出的眼动事件检测算法,该算法由端到端的单层卷积神经网络以及最大池化层和全连接层构成,用于检测注视、眼跳和平稳追踪这三种眼动事件。Startsev等人(2018)提出了一个1D

CNN

BLSTM网络,将各种特征组合在GazeCom数据集上与几种最先进的仅检测注视和眼跳的检测算法以及一些检测平稳追踪的检测算法进行了比较,大多数的特征组合要么具有竞争力,要么优于竞争对手。Zemblys等人(2019)提出了一个名为gazeNet的网络来进行序列到序列的分类。该网络由两个卷积核大小为2
×
11的卷积层、三个LSTM层以及一个全连接层构成,来对注视、眼跳和眼跳后震荡三个眼动事件做事件分类。
[0005]目前基于深度学习的眼动事件检测方法普遍以卷积神经网络和LSTM及其变体为主干网络,而由于眼动序列中不同事件的长短不一,注视的持续时间长,其包含的样本点多,眼跳和眼跳后震荡的持续时间短,其包含的样本点相对注视来说很少,所以使用单一尺度卷积核的卷积神经网络来提取特征无法对小样本事件进行有效的特征提取。

技术实现思路

[0006]本专利技术的目的是提供一种基于多尺度卷积的眼动事件检测方法,解决了单一尺度卷积核的卷积神经网络无法有效提取小样本事件的特征所造成的限制眼动事件检测方法性能的问题。
[0007]本专利技术所采用的技术方案是,基于多尺度卷积的眼动事件检测方法,包括以下步骤:
[0008]步骤1、眼动序列的预处理;
[0009]步骤2,利用UNet模型对差分眼动序列进行多尺度特征提取与特征融合;
[0010]步骤3,使用循环神经网络模拟眼动事件序列;
[0011]步骤4、使用线性全连接层和Softmax将眼动序列中每一时刻的样本点分类为注视、眼跳和眼跳后震荡,实现眼动事件检测;
[0012]步骤5、使用事件级Cohen

s Kappa来对分类后的三种眼动事件进行性能评估。
[0013]本专利技术的特征还在于,
[0014]步骤1具体按照以下步骤实施:
[0015]步骤1.1,选用公开的Lund2013眼动事件检测数据集为原始眼动序列,对于原始眼动序列需要剔除平稳追踪、眨眼和未定义的眼动事件,使得眼动序列仅包含注视、眼跳和眼跳后震荡三个事件以进行训练和测试;
[0016]步骤1.2,将剔除多余事件后的原始眼动序列进行分段操作,使得每段眼动序列只包含100个样本点,这是由于原始眼动序列很长会导致模型训练起来有很大的计算量,将序列分段后降低模型训练难度,分段过程中以overlap的方式进行裁剪,得到分段眼动序列,每段分段眼动序列的段尾与下一段分段眼动序列的段首重叠10个样本点;
[0017]步骤1.3,对分段眼动序列进行差分操作得到差分眼动序列,差分眼动序列作为UNet网络的输入,输入的分段眼动序列首先在序列最前端复制首位样本点,使得分段眼动序列包含101个样本点;其中,分段眼动序列表示为:[(x
s0
,y
s0
),(x
s1
,y
s1
),(x
s2
,y
s2
),

,(x
s(m

1)
,y
s(m

1)
),(x
sm
,y
sm
)],差分后的差分眼动序列表示为:共100个样本点,其中差分计算公式为:
[0018][0019][0020]其中x
sm
和y
sm
表示分段眼动序列第m时刻样本点的坐标值,x
s(m

1)
和y
s(m

1)
表示分段眼动序列第m

1时刻样本点的坐标值,和表示差分眼动序列第m时刻样本点的坐标值。
[0021]步骤2中,UNet模型由编码器和解码器组成,其中编码器模块负责特征提取,由4个下采样块组成,每个下采样块由两个3*5的卷积核进行卷积以及一个3*5的池化核进行最大池化构成;解码器模块负责恢复原始分辨率,由4个上采样块组成,每个上采样块由上采样产生的特征向量与左侧同一层级下采样块产生的特征向量进行特征融合操作以及两个3*5的卷积核进行的卷积操作构成,其中每个上采样块经过上采样之后得到的特征向量与同一层级下采样块产生的相同维度的特征向量进行特征融合,从而实现多尺度卷积的特征融合,使得模型对大样本和小样本具有相同的关注度。
[0022]步骤2中,下采样块中的卷积层使用padding补零,使得卷积前后序列的尺寸不变;
每个下采样块经过两层卷积之后,感受野分别达到9、13、17、21,每个下采样块输出的特征向量的尺寸分别是[2,100,32](其中2表示眼动序列中的水平方向和垂直方向两个通道,100表示序列长度100个样本点,32表示特征向量的维度)、[2,96,64]、[2,92,128]、[2,88,256]。
[0023]步骤3中,使用的循环神经网络为3层,每层包含64个神经元。
[0024]步骤4中,使用的线性全连接层为1层,输出类别为3类,分别对应注视、眼跳和眼跳后震荡三个眼动事件,训练过程中使用的损失函数是加权交叉熵损失函数,训练集中注视、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多尺度卷积的眼动事件检测方法,其特征在于,包括以下步骤:步骤1、眼动序列的预处理;步骤2,利用UNet模型对差分眼动序列进行多尺度特征提取与特征融合;步骤3,使用循环神经网络模拟眼动事件序列;步骤4、使用线性全连接层和Softmax将眼动序列中每一时刻的样本点分类为注视、眼跳和眼跳后震荡,实现眼动事件检测;步骤5、使用事件级Cohen

s Kappa来对分类后的三种眼动事件进行性能评估。2.根据权利要求1所述的基于多尺度卷积的眼动事件检测方法,其特征在于,步骤1具体按照以下步骤实施:步骤1.1,选用公开的Lund2013眼动事件检测数据集为原始眼动序列,对于原始眼动序列需要剔除平稳追踪、眨眼和未定义的眼动事件,使得眼动序列仅包含注视、眼跳和眼跳后震荡三个事件以进行训练和测试;步骤1.2,将剔除多余事件后的原始眼动序列进行分段操作,使得每段眼动序列只包含100个样本点,分段过程中以overlap的方式进行裁剪,得到分段眼动序列,每段分段眼动序列的段尾与下一段分段眼动序列的段首重叠10个样本点;步骤1.3,对分段眼动序列进行差分操作得到差分眼动序列,差分眼动序列作为UNet网络的输入,输入的分段眼动序列首先在序列最前端复制首位样本点,使得分段眼动序列包含101个样本点;其中,分段眼动序列表示为:[(x
s0
,y
s0
),(x
s1
,y
s1
),(x
s2
,y
s2
),

,(x
s(m

1)
,y
s(m

1)
),(x
sm
,y
sm
)],差分后的差分眼动序列表示为:共100个样本点,其中差分计算公式为:算公式为:其中x
sm
和y
sm
表示分段眼动序列第m时刻样本点的坐标值,x
s(m

1)
和y
s(m

1)
表示分段眼动序列第m

1时刻样本点的坐标值,和表示差分眼动序列第m时刻样本点的坐标值。3.根据权利要求2所述的基于多尺度卷...

【专利技术属性】
技术研发人员:郑洋梁一唯梁继民郭开泰胡海虹王梓宇
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1