基于音视频的情绪识别方法、装置及设备制造方法及图纸

技术编号：35693598 阅读：35 留言：0更新日期：2022-11-23 14:43

本公开提供了一种基于音视频的情绪识别方法，应用于人工智能领域或其它领域，包括：采集音视频数据；对音视频数据进行预处理，得到语音数据和视频数据；将语音数据输入语音情绪识别模型，得到第一概率分布，第一概率分布用于表示语音情绪识别模型得到的语音情绪识别结果；将视频数据输入视频情绪识别模型，得到第二概率分布，第二概率分布用于表示视频情绪识别模型得到的视频情绪识别结果；根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。本公开还提供了一种基于音视频的情绪识别系统、电子设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。

全部详细技术资料下载

【技术实现步骤摘要】
基于音视频的情绪识别方法、装置及设备

[0001]本公开涉及人工智能
，具体涉及一种基于音视频的情绪识别方法、装置、设备、介质和程序产品。

技术介绍

[0002]大型呼叫中心尤其是银行业催收场景下，话务员极易与客户发生言语冲突，当前多依赖于事后人工录音抽检，存在人力成本高、时效差、检查范围覆盖不全等问题，如何在事中高效地识别话务员情绪变化，及时采取干预或疏导措施，提高现场管理效率，进而维护银行业的对客服务形象，是亟待解决的问题。

技术实现思路

[0003]鉴于上述问题，本公开提供了一种基于音视频的情绪识别方法、装置、设备、介质和程序产品。
[0004]根据本公开的第一个方面，提供了一种基于音视频的情绪识别方法，包括：采集音视频数据；对音视频数据进行预处理，得到语音数据和视频数据；将语音数据输入语音情绪识别模型，得到第一概率分布，第一概率分布用于表示语音情绪识别模型得到的语音情绪识别结果；将视频数据输入视频情绪识别模型，得到第二概率分布，第二概率分布用于表示视频情绪识别模型得到的视频情绪识别结果；根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。
[0005]根据本公开的实施例，将语音数据输入语音情绪识别模型，得到第一概率分布包括：将语音数据进行预处理，并提取语音数据的特征参数；利用隐马尔科夫模型对语音数据的特征参数进行识别，得到语音数据的特征向量；利用预先建立的人工神经网络对语音数据的特征向量进行分类，得到语音情绪识别的第一概率分布。/>[0006]根据本公开的实施例，利用预先建立的人工神经网络对语音数据的特征向量进行分类包括：对语音数据的特征向量进行归一化，得到待识别特征矩阵；将待识别特征矩阵作为人工神经网络的输入；计算待识别特征矩阵和与样本语音情绪对应的标准特征矩阵中的各元素的匹配概率，语音情绪识别的第一概率分布。
[0007]根据本公开的实施例，语音数据的特征参数包括基音频率、短时能量和振幅。
[0008]根据本公开的实施例，将视频数据输入视频情绪识别模型，得到第二概率分布包括：将视频数据进行预处理，并提取视频数据的面部表情图像；利用局部二值拟合算法对面部表情图像进行特征提取，得到视频数据的特征向量；利用随机森林算法对视频数据的特征向量进行分类，得到视频情绪识别的第二概率分布。
[0009]根据本公开的实施例，利用局部二值拟合算法对面部表情图像进行特征提取，得到视频数据的特征向量包括：对面部表情图像进行人脸检测，得到人脸部分图像；根据人脸部分图像利用局部二值拟合算法提取人脸关键点；根据人脸关键点构建视频数据的特征向量。
[0010]根据本公开的实施例，根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类包括：根据预设的先验概率作为权重参数，根据权重参数、第一概率分布、二概率分布使用argmax函数计算情绪识别的综合评分，并确定情绪分类。
[0011]根据本公开的实施例，对音视频数据进行预处理，得到语音数据和视频数据包括：对音视频数据进行语音检测，得到语音数据；对音视频数据进行视频提取，得到视频数据。
[0012]根据本公开的实施例，确定情绪分类后还包括：将情绪分类与预设异常情绪样本集进行匹配；若匹配成功，则对异常情绪进行干预处理。
[0013]本公开的第二方面提供了一种基于音视频的情绪识别装置，包括：采集模块，用于采集音视频数据；处理模块，用于对音视频数据进行预处理，得到语音数据和视频数据；语音情绪识别模块，用于将语音数据输入语音情绪识别模型，得到第一概率分布，第一概率分布用于表示语音情绪识别模型得到的语音情绪识别结果；视频情绪识别模块，用于将视频数据输入视频情绪识别模型，得到第二概率分布，第二概率分布用于表示视频情绪识别模型得到的视频情绪识别结果；融合判断模块，用于根据语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。
[0014]本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述基于音视频的情绪识别方法。
[0015]本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述基于音视频的情绪识别方法。
[0016]本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述基于音视频的情绪识别方法。
附图说明
[0017]通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：
[0018]图1示意性示出了根据本公开实施例的基于音视频的情绪识别方法的应用场景示意图；
[0019]图2示意性示出了根据本公开实施例的基于音视频的情绪识别方法的流程图；
[0020]图3示意性示出了根据本公开实施例的将语音数据输入语音情绪识别模型，得到第一概率分布的方法流程图；
[0021]图4示意性示出了根据本公开实施例利用预先建立的人工神经网络对语音数据的特征向量进行分类的方法流程图；
[0022]图5示意性示出了根据本公开实施例的将视频数据输入视频情绪识别模型，得到第二概率分布的方法流程图；
[0023]图6示意性示出了根据本公开实施例的利用局部二值拟合算法对面部表情图像进行特征提取，得到视频数据的特征向量的方法流程图；
[0024]图7示意性示出了根据本公开实施例的对音视频数据进行预处理，得到语音数据和视频数据的方法流程图；
[0025]图8示意性示出了根据本公开实施例的对异常情绪进行干预处理的方法流程图；
[0026]图9示意性示出了根据本公开实施例的基于二维向量的情绪表达模型的分布示意图；
[0027]图10示意性示出了根据本公开实施例的基于HMM和ANN的混合识别模型的结构示意图；
[0028]图11示意性示出了根据本公开实施例的基于音视频进行情绪识别和员工管理的方法流程图；
[0029]图12示意性示出了根据本公开实施例的基于音视频的情绪识别装置的方框图；
[0030]图13示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的方框图。
具体实施方式
[0031]以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
[0032]在本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于音视频的情绪识别方法，其特征在于，包括：采集音视频数据；对所述音视频数据进行预处理，得到语音数据和视频数据；将所述语音数据输入语音情绪识别模型，得到第一概率分布，所述第一概率分布用于表示所述语音情绪识别模型得到的语音情绪识别结果；将所述视频数据输入视频情绪识别模型，得到第二概率分布，所述第二概率分布用于表示所述视频情绪识别模型得到的视频情绪识别结果；根据所述语音情绪识别结果、视频情绪识别结果进行融合判断，得到情绪识别的综合评分，确定情绪分类。2.根据权利要求1所述的基于音视频的情绪识别方法，其特征在于，所述将所述语音数据输入语音情绪识别模型，得到第一概率分布包括：将所述语音数据进行预处理，并提取所述语音数据的特征参数；利用隐马尔科夫模型对所述语音数据的特征参数进行识别，得到所述语音数据的特征向量；利用预先建立的人工神经网络对所述语音数据的特征向量进行分类，得到所述语音情绪识别的第一概率分布。3.根据权利要求2所述的基于音视频的情绪识别方法，其特征在于，所述利用预先建立的人工神经网络对所述语音数据的特征向量进行分类包括：对所述语音数据的特征向量进行归一化，得到待识别特征矩阵；将所述待识别特征矩阵作为所述人工神经网络的输入；计算所述待识别特征矩阵和与样本语音情绪对应的标准特征矩阵中的各元素的匹配概率，所述语音情绪识别的第一概率分布。4.根据权利要求2所述的基于音视频的情绪识别方法，其特征在于，所述语音数据的特征参数包括基音频率、短时能量和振幅。5.根据权利要求1所述的基于音视频的情绪识别方法，其特征在于，所述将所述视频数据输入视频情绪识别模型，得到第二概率分布包括：将所述视频数据进行预处理，并提取所述视频数据的面部表情图像；利用局部二值拟合算法对所述面部表情图像进行特征提取，得到所述视频数据的特征向量；利用随机森林算法对所述视频数据的特征向量进行分类，得到所述视频情绪识别的第二概率分布。6.根据权利要求5所述的基于音视频的情绪识别方法，其特征在于，所述利用局部二值拟合算法对所述面部表情图像进行特征提取，得到所述视频数据的特征向量包括：对所述面部表情图像进行人脸检测，得到人脸部分图像；根据所述人脸部分图像利用局...

【专利技术属性】
技术研发人员：颜谨，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人