一种基于视频流与语音的实时情绪识别系统及方法技术方案

技术编号：44964200 阅读：33 留言：0更新日期：2025-04-12 01:35

本发明专利技术公开了一种基于视频流与语音的实时情绪识别系统及方法，该系统包括：数据采集模块：用于通过摄像头实时采集用户面部表情的视频帧，同时通过麦克风实时采集用户的语音信号；特征提取模块：用于将视频帧输入卷积神经网络以提取视觉特征，同时将语音信号输入长短期记忆网络以提取时序特征；加权融合模块：用于将视觉特征和时序特征进行加权融合，生成多模态特征向量；情绪识别模块：用于调用外部大模型的API，对视频帧中的情绪进行进一步识别，获取外部大模型反馈的情绪识别结果，并将外部大模型反馈的情绪识别结果与多模态特征向量进行进一步结合，以生成并输出最终的情绪识别结果。本发明专利技术能够提高情绪识别的准确性、高效性与实时性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于情绪识别，具体涉及一种基于视频流与语音的实时情绪识别系统及方法。

技术介绍

1、近年来，随着人工智能技术和深度学习技术的飞速发展，情绪识别作为人机交互中的核心任务，得到了广泛的关注和研究。情绪识别不仅能够帮助智能系统理解用户的情绪状态，还能用于诸如健康监测、智能客服、教育领域的情绪反馈等应用场景。

2、传统的情绪识别系统大多基于单一模态，如仅使用面部图像或仅使用语音信号来进行情绪分类和识别。然而，情绪表达是多模态的，既包含了非语言信号（如面部表情、手势、身体姿态），也包含了语言和语音信号。因此，单一模态的情绪识别系统难以全面准确地捕捉用户的真实情绪状态。

3、为了解决上述问题，多模态情绪识别逐渐成为研究的热点方向。多模态情绪识别通过融合视觉和听觉信息，能够更全面地捕捉情绪线索。然而，如何高效地将不同模态的数据进行融合，并在系统运行过程中实现实时情绪反馈，是当前技术中的一个难点。

技术实现思路

1、针对现有情绪识别技术的不足，本专利技术提出了一种基于知识...

【技术保护点】

1.一种基于视频流与语音的实时情绪识别系统，其特征在于，包括：

2.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统，其特征在于，所述特征提取模块包括：通过卷积神经网络从用户面部表情中提取多层特征图。

3.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统，其特征在于，所述特征提取模块包括：通过长短期记忆网络从语音信号中提取隐藏状态和单元状态。

4.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统，其特征在于，所述特征提取模块包括：通过包括OpenFace和FaceNet的预训练模型从所述视频帧中提取视觉特征。

...

【技术特征摘要】

1.一种基于视频流与语音的实时情绪识别系统，其特征在于，包括：

4.根据权利要求1所述的一种基于视频流与语音的实时情绪识别系统，其特征在于，所述特征提取模块包括：通过包括openface和facenet的预训练模型从所述视频帧中提取视觉特征。

5....

【专利技术属性】
技术研发人员：杜伟彬，滕璐瑶，汤非易，刘希，
申请(专利权)人：广州番禺职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人