一种基于声音视觉联合特征的视频内表情识别方法技术

技术编号：20364216 阅读：37 留言：0更新日期：2019-02-16 17:07

本发明专利技术公开一种基于声音视觉联合特征的视频内表情识别方法，该方法包括以下步骤：步骤S1：对输入视频在视觉和声音两个维度上进行采样，得到采样图像帧和采样音频片段；步骤S2：在采样图像帧上进行视觉特征提取，获得视觉特征向量，在采样声音片段上进行声音特征提取，获得声音特征向量；步骤S3：融合视觉和声音特征向量，设计联合分类器对视觉声音联合特征进行分类，得到表情检测分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于声音视觉联合特征的视频内表情识别方法
本专利技术涉及一种视频内表情识别方法，尤其涉及一种基于声音视觉联合特征的视频内表情识别方法。
技术介绍
视频内的表情识别是依据视频中出现的人物特征来判断其表情的技术。视频中常见且重要的表情类别包括开心、愤怒、厌恶、恐惧、悲伤、惊讶等。表情是视频内容的重要组成部分，通过识别表情，可对视频片段所表达和对应的情感情绪进行分析，从而衍生出与情感相关的视频应用。现有的视频中表情识别技术大多聚焦在基于人脸视觉特征的方式，即通过人脸检测定位，分析和识别人脸区域图像，根据人脸区域图像的视觉特征对其进行表情分类。人脸区域图像视觉特征确实是最能反映人脸表情的视觉特征，但由于人脸图像存在模糊、光照条件、角度偏向等因素的干扰，仅基于视觉单一模态特征的人脸表情识别存在一定的局限性。但是视频中能反映表情的信息并不仅局限于视觉特征，声音特征也是一类能反映视频情感的重要特征，通过声音特征可对视频片段的情感属性进行分析，从而帮助视频内表情识别提高准确率。如何将视觉特征和声音特征有效融合，是有待解决的问题。
技术实现思路
本专利技术的目的在于利用声音特征模型...

【技术保护点】
1.一种基于声音视觉联合特征的视频内表情识别方法，其特征在于：包括以下步骤：步骤S1：对输入视频在视觉和声音两个维度上进行采样，得到采样图像帧和采样音频片段；步骤S2：在采样图像帧上进行视觉特征提取，获得视觉特征向量，在采样声音片段上进行声音特征提取，获得声音特征向量；步骤S3：融合视觉和声音特征向量，设计联合分类器对视觉声音联合特征进行分类，得到表情检测分类结果。

【技术特征摘要】
1.一种基于声音视觉联合特征的视频内表情识别方法，其特征在于：包括以下步骤：步骤S1：对输入视频在视觉和声音两个维度上进行采样，得到采样图像帧和采样音频片段；步骤S2：在采样图像帧上进行视觉特征提取，获得视觉特征向量，在采样声音片段上进行声音特征提取，获得声音特征向量；步骤S3：融合视觉和声音特征向量，设计联合分类器对视觉声音联合特征进行分类，得到表情检测分类结果。2.如权利要求1所述的基于声音视觉联合特征的视频内表情识别方法，其特征在于：视频中表情识别采用视觉图像帧和声音片段的联合采样，两种采样具有相同的采样间隔以满足时间域上的对齐。3.如权利要求2所述的基于声音视觉联合特征的视频内表情识别方法，其特征在于：声音特征采用将等长间隔音频频谱图输入经预训练的声音卷积神经网络得到的特征层输出，视觉特征采用将等长间隔采样得到的采样图像经人脸检测对齐预处理后输入经预训练的视觉卷积神经网络得到的特征层输出，声音特征和视觉特征经过连接合并、降维归一化等变换等处理后得到联合特征向量。4.如权利要求3所述的基于声音视觉联合特征的视频内表情识别方法，其特征在于：使用声音视觉联合标注的样本集，提取声音视觉联合特征向量后用标注的表情标签来训练有监督分类器，实现视频中的表情分类。5.如权利要求4所述的基于声音视觉联合特征的视频内表情识别方法，其特征在于：用监督学习方法训练基于声音视觉联合特征向量的表情分类器，训练样本为同时包含人脸表情和声音的视频片段及标注的表情类别标签，分类器样式选包括不限于SVM、XGBoost、单层全连接神经网络监督学...

【专利技术属性】
技术研发人员：张奕，谢锦滨，顾寅铮，
申请(专利权)人：上海极链网络科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人