基于迁移学习的音频和文本的宽时间范畴情感识别方法技术

技术编号：40547645 阅读：6 留言：0更新日期：2024-03-05 19:05

本发明专利技术公开涉及基于迁移学习的音频和文本的宽时间范畴情感识别方法，通过使用预训练模型VGGish和BERTbase提取音频和文本两个模态的情感特征，从不同的角度对目标人物的情感进行分析；通过事实描述和文本描述进行情感特征的提取，在宽时间范畴内对目标人物目前的情感状态进行更准确的推理，通过在SVCEmotion数据集的音频和文本描述数据上的实验证明，VGGish和BERTbase预训练模型均能在本文使用的数据集上实现良好的效果，模型在预训练过程中学习到的参数能够有效的提升其在目标任务上的表现；对比实验证明，SVCEmotion数据集中针对宽时间范畴下的情感识别任务引入的情境描述可以为情感识别提供线索，且与事实描述结合能大幅提升情感识别效果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及面部捕捉，具体为一种基于迁移学习的音频和文本的宽时间范畴情感识别方法。

技术介绍

1、在多模态情感识别系统的构建过程中，模型对各个单一模态的情感特征的表示能力是情感识别功能实现的基础。音频和文本都能够为情感识别提供有效信息，因此针对数据集中的音频和文本模态研究情感识别方法是有必要的。深度学习模型需要在大量数据样本上进行训练才能达到较为理想的特征表示能力，但是由于svcemotion数据集的收集和标注时间成本过高，目前数据集的规模较小，作为训练数据不足以构建有效的深度学习模型。迁移学习可以利用预训练模型在源域学习到的知识，辅助其在目标域的任务上达到较好的识别效果。

2、本申请研究的文本内容与常规数据集中记录人物对话内容的文本不同，是将视频当中发生的事件以及人物的过往经历以文本的形式展现，分为事实描述和情境描述两部分，其中情境描述是对人物与当前状态有关的过往经历进行情境上下文描述，使模型能够从宽时间范畴内的文本信息中挖掘与情感相关联的特征表示。深度学习模型需要在大量数据样本上进行训练才能达到较为理想的特征表示能力，但是由于svcemotion数据集的收集和标注时间成本过高，目前数据集的规模较小，作为训练数据不足以构建有效的深度学习模型。迁移学习可以利用预训练模型在源域学习到的知识，辅助其在目标域的任务上达到较好的识别效果。

3、目前，语音情感识别(ser)已经成为人机交互过程中不可或缺的功能，语音情感识别系统从经过预处理的语音信号中提取并分类。在基于深度学习的语音情感识别研究中，卷积神经网络(cnn

4、文本分类一直是自然语言处理领域的主要研究方向。madasu等人[62]提出了一种顺序卷积注意递归网络(scarn)，由于常规的卷积网络在处理文本信息时会丢失一些位置信息，且没有能力捕获连续的信息，但是它能够稳健地创建能够处理任何任务特定噪声的变换。因此该文献提出了在模型中使用递归网络结构，在整体网络架构中包含两个模块：卷积递归子网络和递归注意子网络。第一个模块通过卷积网络提取高级特征，卷积的输出用lstm网络依次训练。在第二个模块中，使用lstm训练输入向量。为了更好地关注最相关的词，注意力机制被应用于每个时间步的lstm的输出。将两个模块的输出进行级联，并送入分类器中得到分类结果。该方法与同样规模的cnn和lstm相比，在情感分析和分类问题上能够实现更好的识别效果。lai等人提出了一种基于句法的图卷积网络(gcn)模型，以增强对中文微博内容不同语法结构的理解。该模型主要由三部分组成：首先，使用bi-lstm网络提取给定文本的初步词汇特征。然后，将初步的词语特征和为每条微博内容建立的依赖性解析树送入单层图卷积网络(gcn)以利用微博的情感特征。最后，使用池化或全连接层获得概率分布。此外，还提出了一种基于百分位数的集合方法来提高模型的准确性。实验结果表明该模型能够有效地利用依赖关系解析的信息来提高情绪检测的性能。

技术实现思路

1、为了解决以上的问题，本申请提供基于迁移学习的音频和文本的宽时间范畴情感识别方法，使用预训练模型vggish和bertbase提取音频和文本两个模态的情感特征，从不同的角度对目标人物的情感进行分析，提升情感识别效果。

2、为了达到上述目的，本申请实施例采用的技术方案如下：

3、提供基于迁移学习的音频和文本的宽时间范畴情感识别方法，所述方法包括以下步骤：

4、vggish预训练模型的输入信号处理；调用ffmpeg工具将视频中的音频提取出来，然后将其重采样为16khz的单声道音频；使用窗长为25ms的hann窗截取音频片段，以10ms的帧移对音频片段实现短时傅里叶变换得到频谱图，使用梅尔尺度滤波器组，计算log(mel-spectrum+0.01)，将频谱转化为梅尔声谱，每帧时长为10ms，包含64个梅尔频带，将每帧的梅尔声谱进行无重叠的组合，每0.96s的时长为一组，得到每组输入尺寸为96×64的梅尔声谱图；

5、建立vggish预训练模型；所述vggish预训练模型通过大规模音频事件数据集audioset数据集上进行预训练，所述audioset数据集由200多万个时长为10秒的youtube音频片段组成，所述audioset数据集标注了623种音频事件类的本体；

6、将经过转换的梅尔声谱图作为vggish预训练模型的输入，每组输入经过特征提取得到128维的特征表示，在训练过程中，每次随机选取音频样本的维一组特征表示送入两层全连接层，得到28维的分类表示hv；

7、在验证过程中，取每个样本的全部特征表示的均值作为视频级别的特征表示，并送入分类器得到识别结果。

8、进一步地，使用bertbase模型作为文本情感分类的特征提取网络；文本信息包含每段视频的事实描述和情境描述两部分，为验证宽时间范畴内的情境信息对情感识别的辅助作用，将每个样本的两种文本描述进行拼接作为第三种文本描述。

9、进一步地，所述bertbase模型网络共有12层编码层，隐藏层尺寸为768，每层的多头自注意力模块的数量是12，序列最大长度设置为128。

10、进一步地，通过使用输入向量对应的query与key计算点积，得到每个词向量与其他词向量的相关性，经过softmax归一化之后，得到每个位置的词向量对应的注意力分布，将对应位置的注意力值与value相乘后再求和，每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息。自注意力的计算过程如下：

本文档来自技高网...

【技术保护点】

1.基于迁移学习的音频和文本的宽时间范畴情感识别方法，所述方法包括以下步骤：

2.根据权利要求1所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：使用BERTbase模型作为文本情感分类的特征提取网络；文本信息包含每段视频的事实描述和情境描述两部分，为验证宽时间范畴内的情境信息对情感识别的辅助作用，将每个样本的两种文本描述进行拼接作为第三种文本描述。

3.根据权利要求2所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：所述BERTbase模型网络共有12层编码层，隐藏层尺寸为768，每层的多头自注意力模块的数量是12，序列最大长度设置为128。

4.根据权利要求3所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：通过使用输入向量对应的Query与Key计算点积，得到每个词向量与其他词向量的相关性，经过Softmax归一化之后，得到每个位置的词向量对应的注意力分布，将对应位置的注意力值与Value相乘后再求和，每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息。自注意力的计算过程如下：

5.根据权利要求4所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：对于每个输入的序列，经过特征提取后的输出维度为128×768，将分类标记[CLS]对应的输出特征经过全连接层映射到输出空间，得到每个文本的分类结果。

6.根据权利要求5所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：分别对事实描述、情境描述以及两者的拼接进行特征提取和情感分类，得到的分类结果表示为Pt、Pc和Ptc。

7.根据权利要求6所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：

...

【技术特征摘要】

1.基于迁移学习的音频和文本的宽时间范畴情感识别方法，所述方法包括以下步骤：

2.根据权利要求1所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：使用bertbase模型作为文本情感分类的特征提取网络；文本信息包含每段视频的事实描述和情境描述两部分，为验证宽时间范畴内的情境信息对情感识别的辅助作用，将每个样本的两种文本描述进行拼接作为第三种文本描述。

3.根据权利要求2所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：所述bertbase模型网络共有12层编码层，隐藏层尺寸为768，每层的多头自注意力模块的数量是12，序列最大长度设置为128。

4.根据权利要求3所述的基于迁移学习的音频和文本的宽时间范畴情感识别方法，其特征在于：通过使用输入向量对应的query与key计算点积，得到每个词向量...

【专利技术属性】
技术研发人员：卢桂萍，王科俊，张小凤，杨涛，曹宇，
申请(专利权)人：北京理工大学珠海学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人