一种融合视频语义信息的在线学习多模态情感识别方法技术

技术编号：40241187 阅读：11 留言：0更新日期：2024-02-02 22:39

本发明专利技术公开了一种融合视频语义信息的在线学习多模态情感识别方法，包括如下步骤：1）数据采集；2）数据预处理；3）特征提取；4）多模态融合与情感识别；5）测试与评估。这种方法能提高情感识别的准确性，能够更深入地理解教学视频的内容和学习者的反应，有助于教学改进和教育研究。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频语义理解以及多模态情感识别技术，具体是一种融合视频语义信息的在线学习多模态情感识别方法。

技术介绍

1、多模态情感识别，是通过多个感知通道(例如生理、语音、图像等)来识别和理解人的情感状态。该领域的研究旨在更全面地捕捉和分析人的情感，因为情感不仅仅表现在文本或语音中，还表现在眼动和生理信号的变化等多个方面。此外，由于在在线学习的场景中，面部表情变化不明显且具有主观迷惑性，而眼动及生理信号等无法人为控制的变化更为客观。因此，通过捕获学习者在在线学习过程中眼动、光电容积脉搏ppg(photoplethysmography,简称ppg)等生理信号变化来实现多模态情感融合分析更具准确性与客观性。

2、视频语义理解，是指通过计算机视觉和自然语言处理技术来分析和理解视频内容中的语义信息，这种技术旨在使计算机能够更深入地理解视频中的内容，而不仅仅是简单的像素级别的处理。比如在在线学习的情景中，利用视频语义理解技术可以对学习视频进行语义提取，并加以理解教学视频中发生的事件和教学阶段与教学重点，这包括理解视频中的教学时间顺序、因果关系等，同时也可通过自然语言生成，来生成一段对该教学视频的文字描述，以便更容易理解和检索视频内容。针对在线学习场景下的情感分析，大多现有研究针对学习者本身的情感诱发，忽略了教学视频中的视频语义信息对学习者的影响。因此，有必要研究一种融合视频语义信息的在线学习情感识别方法。

3、近年来，因经济迅速发展以及疫情的影响，人们对于学习知识的需求与渴望空前高涨，在线学习方式由于其系统性和便

4、目前，关于在线学习情感分析的研究主要集中在学习者本身的情感诱发，忽略了教学视频本身的视频语义信息对学习者情感的影响。因此，有必要研究一种综合视频语义信息的在线学习情感识别方法，以更全面地理解学习者的情感状态。

技术实现思路

1、本专利技术的目的是针对现有技术的不足，而提供一种融合视频语义信息的在线学习多模态情感识别方法。这种方法能提高情感识别的准确性，能够更深入地理解教学视频的内容和学习者的反应，有助于教学改进和教育研究。

2、实现本专利技术目的的技术方案是：

3、一种融合视频语义信息的在线学习多模态情感识别方法，包括如下步骤：

4、1)数据采集：通过电脑显示器播放教学视频，同时采集学习者在观看教学视频过程中产生的眼动、ppg信号，并提取教学视频片段的语义描述，包括：

5、1-1)眼动信号获取：采用平板式眼动仪采集学习者在学习过程中产生的注视、眼跳、瞳孔大小、眼动轨迹数据；

6、1-2)ppg信号获取：采用可穿戴耳夹传感器采集学习者在学习过程中产生的ppg信号；

7、1-3)视频语义提取：采用生成视频文本描述的方式来捕获视频的丰富语义信息，这个文本描述包括详细的文字信息，描述视频中的场景、对象、动作和情节，以及表达视频内容的情感和情感背景，视频片段的语义描述可以采用人工方式进行构建，但这种方式需要大量的人力和时间，并不适合在线学习场景的应用，因为在在线学习场景的实际应用中，需要实时生成描述，因此，为了更好地适应在线学习环境，采用阿里巴巴达摩院发布的mplug-owl模型进行微调来实现视频语义描述的自动化生成从而更好地适应在线学习环境的需求；

8、2)数据预处理：对采集到的眼动数据、ppg数据以及视频语义信息进行数据预处理，包括：

9、2-1)眼动数据处理：在实验过程中可能会出现眼动数据的缺失，如因被试者眨眼、闭眼或低头等情况，为应对这一问题，采用线性插值方法对眼动数据缺失数值进行填补，线性插值方法公式定义为：

10、

11、其中(x0，x1)为缺失值前后相邻帧的时间点，(y0，y1)为(x0，x1)对应的眼动数据值，x为缺失眼动数据对应的时间点，y为缺失眼动数据，然后对这些填补后的眼动数据进行基线校正，以排除不同被试者之间的差异性，确保数据的一致性；

12、2-2)ppg信号处理：原始ppg信号可能受多种干扰因素影响，包括运动、光照变化、噪声和电磁干扰，这些因素可能导致伪迹，首先，采用滤波器对信号进行去噪，以减小高频噪声的影响，提高ppg信号的质量，随后，对ppg信号进行基线校正，以排除不同被试者之间的差异性，确保数据的一致性，这些步骤有助于提高ppg信号的准确性和可靠性；

13、2-3)视频语义信息处理：针对教学视频片段的语义描述文本进行处理，首先，进行文本清洗，包括清除特殊符号、标点、额外空格，以减少噪音并标准化文本，随后，移除停用词和低频词，停用词指的是在文本中频繁出现但缺乏实际语义含义的词语，例如“的”、“是”等，而低频词则指出现频率较低的词汇，可能对模型训练造成干扰噪声；

14、3)特征提取：将经过预处理的数据进行特征提取，包括：

15、3-1)眼动信号标准特征提取：在眼动数据方面，抽取瞳孔直径、注视时间和扫视时长等多个时域特征，为评估这些特征与情感状态的关联性，计算这些特征与情感状态之间的pearson相关系数，采用p值来确定相关系数的显著性，即确定每个特征与情感状态之间的关联性，一般而言，当p值小于0.05时，相关系数被认为是显著的，表示两组样本之间存在显著的线性关系，而当p值小于0.01时，相关系数则被认为高度显著，最终筛选出那些与情感状态显著相关，即p值小于0.05的24个眼动特征，pearson相关系数的公式定义为：

16、

17、其中r∈[-1，1],n是数据点的数量，xi和yi分别是两个变量的第i个数据点的值，和分别是两个变量的均值，根据pearson相关系数r计算p值，先计算统计量t,当样本量为n时，则有：

18、

19、然后根据自由度df＝n-2，查找t分布表或使用统计软件来确定t统计量对应的p值；

20、3-2)ppg信号标准特征提取：对ppg数据进行精细的特征提取工作，即包括时域特征、频域特征和非线性特征的提取，与眼动特征提取类似，同样计算ppg特征与情感特征之间的pearson相关系数，并根据p值筛选出29个与情感状态显著相关的ppg特征；

21、3-3)眼动ppg信号深层特征提取：尽管普通特征提取能够捕获信号的基本特性，但深层特征提取更进一步地探索数据中的潜在模式和相互关系，提供了更高级、更抽象的数据表征，从而有助于更深入和复杂的本文档来自技高网...

【技术保护点】

1.一种融合视频语义信息的在线学习多模态情感识别方法，其特征在于，包括如下步骤：

【技术特征摘要】

1.一种融合视频语义信息的在线学习多模态...

【专利技术属性】
技术研发人员：陶小梅，张源，艾寒旭，李齐锋，李志林，
申请(专利权)人：广西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人