一种面向在线视频学习的基于细粒度特征与TCN模型的情感识别方法技术

技术编号:34554826 阅读:20 留言:0更新日期:2022-08-17 12:40
本发明专利技术公开了一种面向在线视频学习的基于细粒度特征与TCN模型的情感识别方法。包括以下步骤:S1、自建眼动和视频特征的数据库,以学习视频作为刺激材料,提取学习视频中的音频数据和视频图像数据;并对数据对齐、标注、预处理、数据集设置、数据类型转换和数据集样本划分等操作;S2、将划分好的样本再次进行细粒度划分。从细粒度子样本中提取特征,将提取出的特征组成一条特征曲线,选取几个特征进行可视化分析;S3、采用LSTM、LSTM+CNN、TCN、TCN+CNN对划分好的细粒度样本进行识别,提取其中的时序特征;S4、步骤S4对训练过程可视化采用精度(Accuracy)以及混淆矩阵和ROC曲线衡量所设计的网络结构性能效果。S5、在不同数据集上验证模型的有效性。模型的有效性。模型的有效性。

【技术实现步骤摘要】
一种面向在线视频学习的基于细粒度特征与TCN模型的情感识别方法


[0001]本专利技术涉及情感识别领域,尤其涉及一种面向在线视频学习的基于眼动和视频特征并使用改进的卷积神经网络提取深层特征进行情感识别的方法。

技术介绍

[0002]慕课(Massive Open Online Course,MOOC),即大规模开放在线课程,是一种新兴的在线课程模式。 MOOC学习中,在线观看教学视频是基本的学习方式,但该方式存在明显的“情感缺失”问题。观看教学视频过程中学习者产生负向情感状态时,感受不到及时的情感关怀和认知支持,学习者的兴趣就会受到挫折,教学效果会大大减弱。在学习者在线观看教学视频的过程中及时识别其情感状态是解决“情感缺失”的首要问题。现有的在线网络学习环境注重学习者认知层面的适应性和个性化,即根据学习者的认知能力和知识状态提供合适的学习内容、学习路径和问题解答等,而较少考虑情感、兴趣、动机、意志等非智力因素在学习活动中的作用,忽视在线学习环境中和谐情感交互的理论和实践研究,以致其缺少情感层面的适应性和个性化,学习者在智慧学习过程中缺少情感支持。因此,在线视频学习环境中研究情感层面的自适应交互以及如何实现成为急需解决的重要问题。该研究能够推动情感识别在人机交互、教育学、心理学以及认知科学中的快速发展,具有重要的科研价值及社会实践意义。
[0003]情感的产生与受到的刺激密不可分,在MOOC学习环境中,学生情感状态主要由学习的视频材料刺激产生,平淡的音调会使学生感到无聊,而高昂的音调会引起学生的注意,提升他们的兴趣。略显单一的视频图像会使学生感到沉闷,而快速变化的图像则会吸引学生的注意。学习视频中音频和图像的刺激会使学生情感状态产生波动。因此本文提出了一种融合眼动信号与视听特征的情感识别方法。该方法中提出进一步对窗口划分的样本进行细粒度分割,从分割后的子样本中提取特征组成特征曲线代替自适应窗口分割的样本中的特征值。最后采用眼动信号、音频信号和视频图像三个模态的细粒度特征曲线,并结合时间卷积神经网络(TCN)+CNN模型以及加权决策融合方法构建情感分类模型。

技术实现思路

[0004]本专利技术所要解决的技术问题:针对MOOC学习场景下情感分类研究中存在的样本之间相似性过高,区分度不大导致的情感识别准确率不高的问题,本专利技术提出一种面向在线学习的基于细粒度特征与TCN模型的情感识别方法,所提出的方法包括:
[0005]本专利技术的技术方案:
[0006]S1、自建实验数据集,使用学习视频作为刺激材料,诱发被试者在学习过程中的情感状态,采集过程中的眼动信息;根据采集到的眼动信息帧数采集同帧数的视频内容中的音频信号和视频图像;采用离散型的情感标注模型对数据进行标注,将情感标注词分为感兴趣、高兴、无聊和困惑四种情感状态;对采集的眼动特征、音频特征和视频图像特征进行
预处理,预处理包括:高质量数据筛选,去除异常值和缺省值以及数据对齐;
[0007]S2、将划分好的样本再次进行细粒度划分,如图1所示。从细粒度子样本中提取特征,将提取出的特征组成一条特征曲线,选取几个特征进行可视化分析,如图2所示;
[0008]S3、采用LSTM、LSTM+CNN、TCN、TCN+CNN对划分好的细粒度样本进行识别,提取其中的时序特征;
[0009]S4、步骤S4对训练过程可视化采用精度(Accuracy)以及混淆矩阵和ROC曲线衡量所设计的网络结构性能效果,如表1和表2所示。
[0010]S5、在不同数据集上验证模型的有效性,图表3所示。
[0011]进一步地,步骤S1具体包括以下步骤:
[0012]自建实验数据集,使用学习视频作为刺激材料,诱发被试者在学习过程中的情感状态,采集过程中的眼动信息,并采集同帧数的学习视频的视频图像和音频特征;
[0013]根据采集到的眼动信息帧数采集同帧数的视频内容中的音频信号和视频图像;
[0014]采用离散型的情感标注模型对数据进行标注,将情感标注词分为感兴趣、高兴、无聊和困惑四种情感状态;
[0015]对采集的眼动数据、音频信号和视频图像进行预处理,预处理包括:高质量数据筛选,去除异常值和缺省值以及数据对齐;
[0016]S2、按照一定时间窗口划分样本,将划分好的样本再次进行细粒度划分,划分为多个按照时序关系排列的细粒度子样本,如图1所示。由图可知,若把一个自适应样本平均分成了八份,每一份就是一个小的细粒度子样本,这八个细粒度子样本按照一定的时序关系组成了一个完整的自适应样本,在每个细粒度子样本中进行特征提取,因此原本的自适应样本可以由八个细粒度子样本代替,且其中的特征也从原本的一个数值变为一条包含时序关系的曲线。选取选取眼动信号中几个特征进行可视化分析,如图2所示,其中较细的水平线代表自适应样本中的特征值,较粗的折线是由八个细粒度子样本中的特征值按时序关系组成的特征曲线。静态样本中的特征值由细粒度子样本组成的特征曲线代替,特征曲线可以包含更多的时序特征供分类模型提取,且许多图中直线和折线是相交的,说明细粒度样本组成的特征曲线除去其中隐含的时序特征外,本身就已经包含了自适应样本中的特征值。所以对自适应样本进行细粒度划分可以提取出其中更多的特征;
[0017]样本数据划分为训练集、验证集和测试集,划分比例为70%,10%,20%;
[0018]进一步地,步骤S3采用LSTM、LSTM+CNN、TCN、TCN+CNN对划分好的细粒度样本进行识别,提取其中的时序特征,其中TCN由因果卷积和空洞卷积组成,因果卷积如图3所示,因果卷积是一种模仿LSTM的可以处理序列问题的一维卷积神经网络,该网络通过对前面的时间节点两两卷积,得到最后的结果。因果卷积分为输入层、隐层和输出层三部分,全部为一维卷积,输入层由n个时刻的序列组成,可见经过三层卷积,输出层的节点Out1中就包含了输入层T2

T5四个时刻的信息,但若有很多个时刻则需要更多的卷积层,因此TCN在其中加入了空洞卷积,空洞卷积在卷积层中加入空洞,使得卷积的视野域变大,如图4所示,加入空洞卷积后,TCN的输出层拥有更大的视野域,输出层的节点Out1包含了输入层T1

T8八个时刻的信息。因此针对长时间序列问题,TCN只需要很少的卷积层就可以。在本任务中,八个细粒度子样本表示本任务有八个时刻,图4中的T1

T8八个节点表示八个子样本中的同一个特征,如Max1

Max8,即图2中(a)的特征曲线,若一个子样本中提取了n个特征,则TCN 的输入
通道数为n,输入格式为[batch_size,n,8];
[0019]进一步地,步骤S4对训练过程可视化采用精度(Accuracy)以及混淆矩阵衡量所设计的网络结构性能效果,如表1和表2所示。
[0020]这个需要定义几个基本概念,N
TP
:分类器将正样本判断为正样本的个数,N
FP
:分类器将负样本判断为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向在线视频学习的基于细粒度特征的情感识别方法,包括以下步骤:S1、自建眼动和视频特征的数据库,以学习视频作为刺激材料,提取学习视频中的音频数据和视频图像数据;并对数据对齐、标注、预处理、数据集设置、数据类型转换和数据集样本划分等操作;S2、将划分好的样本再次进行细粒度划分;S3、采用LSTM、LSTM+CNN、TCN、TCN+CNN对划分好的细粒度样本进行识别,提取其中的时序特征;S4、对训练过程可视化并通过评价指标对所提出的网络结构评价,以检测所提出的网络性能的优劣;S5、在不同数据集上验证模型的有效性。2.根据权利要求1所述的一种面向在线视频学习的基于细粒度特征的情感识别方法,所述S1...

【专利技术属性】
技术研发人员:鲍金笛黎辛晓陶小梅
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1