基于Transformer的眼动事件检测方法技术

技术编号：35772869 阅读：24 留言：0更新日期：2022-12-01 14:15

本发明专利技术公开了一种基于Transformer的眼动事件检测方法，包括以下步骤：对原始视线位置时间序列进行预处理；采用CNN网络对输入序列进行特征提取以获得字向量；对视线位置序列进行位置编码来表征序列的位置信息；采用Transformer学习眼动序列的全局特征，并使用全连接和Softmax将输入序列任意时刻预测为注视、眼跳和眼跳后震荡三个基本事件类型；采用事件级Cohen

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer的眼动事件检测方法

[0001]本专利技术属于眼动事件检测
，涉及一种基于Transformer的眼动事件检测方法。

技术介绍

[0002]眼动事件检测(Eye movement event detection)的目的是从眼动仪的原始观测视频中准确鲁棒地提取注视、眼跳、平稳追踪等眼睛运动事件。长期以来，有两类算法应用在此方向上，一类是基于速度的算法，一类是基于离散度的算法。Velocity
‑
Threshold Identification(I
‑
VT)由Bahill等人(1981)提出，其原理可以追溯到1960年代的Boyce算法，通过设定速度阈值，将高于阈值的归类为眼跳，低于阈值的归类为注视。Dispersion
‑
Threshold Identification(I
‑
DT)由Salvucci等人(2000)提出，其原理是用跨越连续样本点的移动窗口来检测潜在的注视，由于注视的低速特点会使其样本点倾向于紧密聚集，所以将窗口内低于离散度阈值的事件归类为注视。这两种方法依赖于手工设计的眼动特征(眼睛位置、速度、加速度等)，且很难找到针对不同受试者的普适阈值，检测性能不仅受限于特征提取方法的准确性，而且难以处理多种眼动事件的同时提取。
[0003]近年来机器学习方法已被初步应用于基于视线位置的眼动事件检测，Pekkanen(2017)等人提出了一种朴素分段线性回归方法同时对视线位置时间序列进行去噪和分割，然后...

【技术保护点】

【技术特征摘要】
1.基于Transformer的眼动事件检测方法，其特征在于：包括以下步骤：步骤1、输入数据为公开眼动事件检测数据集，对原始视线位置序列数据进行预处理，得到差分视线位置序列；步骤2、将差分视线位置序列送入CNN网络中进行特征提取，CNN网络的输出作为字向量Word Embedding；步骤3、对视线位置序列进行位置编码Positional Encoding，以表征视线位置序列的前后位置信息；步骤4、将字向量与位置编码相加之后得到f
t
送入Transformer的Encoder层，经过N层Encoder之后学习到涵盖序列全局的信息，最后经过线性全连接层和Softmax将眼动序列中每一时刻的样本点分类为注视、眼跳和眼跳后震荡，实现眼动事件检测；步骤5、使用事件级Cohen
’
s Kappa来对分类后的三种眼动事件进行性能评估。2.根据权利要求1所述的基于Transformer的眼动事件检测方法，其特征在于：步骤1所述预处理具体包括：步骤1.1，对于输入的数据集剔除除注视、眼跳、眼跳后震荡之外的其它眼动事件；步骤1.2，然后将以像素表示的视线位置(x,y)转换为以空间角度表示的视线位置(x
s
,y
s
)；步骤1.3，对输入的视线位置序列进行差分操作，用后一时刻的位置减去前一时刻的位置得到视线位置的差分序列来作为CNN网络的输入。3.根据权利要求2所述的基于Transformer的眼动事件检测方法，其特征在于：所述步骤1.2的计算公式如下：骤1.2的计算公式如下：其中，x是水平方向坐标，y是垂直方向坐标，p
w
是前景相机图像中显示器宽度方向的像素数，p
h
是前景相机图像中显示器高度方向的像素数，s
w
是屏幕宽度，s
h
是屏幕高度，d是眼睛相对屏幕的距离。4.根据权利要求2所述的基于Transformer的眼动事件检测方法，其特征在于：所述步骤1.3中视线位置序列表示为：[(x
s1
，y
s1
)，(x
s2
，y
s2
)，(x
s3
，y
s3
)，
…
，(x
sm
，y
sm
)，(x
s(m+1)
，y
s(m+1)
)]共m+1个样本点，差分后的序列表示：共m个样本点，其中差分计算公式为：
...

【专利技术属性】
技术研发人员：郑洋，梁一唯，梁继民，郭开泰，胡海虹，任胜寒，王梓宇，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人