【技术实现步骤摘要】
本专利技术涉及情绪识别技术及多模态学习领域,具体涉及一种情景上下文辅助的多模态情绪识别方法。
技术介绍
1、随着人工智能技术的快速发展,情绪识别技术逐渐成为个性化服务、心理健康监测和人机交互等领域的重要组成部分。多模态情绪识别技术借助于结合视觉、语音和文本等多种信息源,可以有效捕捉情绪的多样性和复杂性,从而为相关应用提供更为精准的情绪分析工具。
2、情景上下文这种包含情景语义、社交互动和环境线索的复合信息,为情绪识别提供了关键的语义背景。然而,现有情绪识别研究对情景上下文的联合建模仍缺乏相关探索,相关情绪识别技术仍面临诸多挑战,限制了其实际应用效果。具体表现在以下几个方面:
3、情景上下文的标注与建模难题:当前情绪识别研究中,对于情景上下文的标注过程复杂且成本高昂,往往依赖人工进行标注,无法实现大规模的数据处理。
4、数据驱动的情景上下文建模稳定性问题:许多情绪识别方法主要基于数据驱动的全局建模技术,但在实际应用中,数据常常受到外界噪声和环境变化的影响,在复杂或动态的环境中,情景上下文信息稳定性不足影
...【技术保护点】
1.一种情景上下文辅助的多模态情绪识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述人物眼动序列信号Ei的提取方法为:利用工具RetinaFace库对视频帧数据Ii进行人脸检测,定位到人脸边界框及面部关键点,从面部关键点中提取眼动帧级特征,将眼动帧级特征按时间对齐后构成时序信号Ei。
3.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述动态时空视图下的特征DIi1提取方法为:将序列信号Ei输入动态时空提取网络GI1,网络GI1中时空块嵌入层先获取序列信号Ei位置信息,输出的特征向量经过掩码
...【技术特征摘要】
1.一种情景上下文辅助的多模态情绪识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述人物眼动序列信号ei的提取方法为:利用工具retinaface库对视频帧数据ii进行人脸检测,定位到人脸边界框及面部关键点,从面部关键点中提取眼动帧级特征,将眼动帧级特征按时间对齐后构成时序信号ei。
3.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述动态时空视图下的特征dii1提取方法为:将序列信号ei输入动态时空提取网络gi1,网络gi1中时空块嵌入层先获取序列信号ei位置信息,输出的特征向量经过掩码处理后,依次进入编码层、mlp层、解码层、mlp层处理,输出为含有有效时空信息的原始时空视觉特征,原始时空视觉特征输入一个参数可训练的一维线性映射层,得到动态时空视图下的特征dii1。
4.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述静态局部视图下的特征dii2提取方法为:将视频帧数据ii输入静态局部提取网络gi2,在网络gi2中依次经过卷积映射层、编码层、mlp层处理,输出为含有有效静态局部信息的原始静态局部视图特征,原始静态局部视图特征输入一个参数可训练的一维线性映射层,得到静态局部视图下的特征dii2。
5.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述全局上下文视图下的特征dii3提取方法为:将视频帧数据ii作为视觉数据输入全局上下文提取网络gi3中的视觉编码模块,在视觉编码模块中依次经过卷积映射层、编码层、mlp层处理,输出为原始全局上下文视图特征;将视频帧数据ii的分类标签数据y作为文本数据输入全局上下文提取网络gi3,在网络gi3中经过mlp层处理后,输出的特征向量进入clip网络的预训练文本编码器模...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。