语音情绪检测方法、设备及计算机可读介质技术

技术编号：41006383 阅读：2 留言：0更新日期：2024-04-18 21:42

本申请实施例提供了一种语音情绪检测方法、设备及计算机可读介质，该方案对语音数据进行特征抽取，获取输入特征信息，然后对所述输入特征信息多次编码处理，生成输出特征信息，其中，所述编码处理包括：对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息，由于所述输出特征信息中还包含了每个块内以及块间的注意力信息，能够更好地表示所述语音数据中的特征，因此根据所述输出特征信息，能够更加准确地确定所述语音数据对应的情绪类别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音处理，尤其涉及一种语音情绪检测方法、设备及计算机可读介质。

技术介绍

1、语音处理技术是信息处理领域的一个重要分支，随着科技的发展，语音处理技术的应用越来越广泛。在语音处理技术中，语音情绪检测是指根据输入的语音数据检测其所表达的情绪类别，例如某一段语音所表达出的情绪是开心、难过或者是惊恐等。目前已有的语音情绪检测方案的效果不佳，难以精准地检测出不同语音数据所表达的情绪。

技术实现思路

1、本申请的一个目的是提供一种语音情绪检测方法、设备及计算机可读介质，用以解决现有方案中情绪检测准确性不足的问题。

2、为实现上述目的，本申请实施例提供了一种语音情绪检测方法，所述方法包括：

3、对语音数据进行特征抽取，获取输入特征信息；

4、对所述输入特征信息多次编码处理，生成输出特征信息，其中，所述编码处理包括：对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息；

5、根据所述输出特征信息，确定所述语音数据对应的情绪类别。

6、进一步地，在对语音数据进行特征抽取，获取输入特征信息之前，还包括：

7、基于预设采样率对语音数据进行采样，获取预设时长的语音数据。

8、进一步地，所述编码处理还包括：

9、在对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息之前，对所述

10、进一步地，对所述输入特征信息进行合并处理，包括：

11、对所述输入特征信息进行重构处理，将所述输入特征信息的序列长度由a×a的一维形式变换为(a，a)的二维形式，获取形状为(a，a，b)的输入特征信息，其中，b为特征抽取时的特征嵌入维度；

12、将所述输入特征信息中二维形式的序列长度，根据预设二维形状划分为n×n个形状相同的区域，并在特征嵌入维度上进行拼接，得到形状为(a/n，a/n，n×n×b)的输入特征信息，其中，预设二维形状为(a，a)，a/a＝n；

13、将所述输入特征信息的序列长度由(a/n，a/n)的二维形式变换为a/n×a/n的一维形式，得到形状为(a/n×a/n，n×n×b)的输入特征信息；

14、将所述输入特征信息经过层归一化处理后，进行一维卷积处理，得到形状为(a/n×a/n，n×n×b/2)的输入特征信息，所述一维卷积的卷积核为1，输出通道数为n×n×b/2。

15、进一步地，对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息，包括：

16、对所述输入特征信息经过层归一化处理后进行分块，计算每个块内的注意力信息，并根据所述输入特征信息和块内的注意力信息生成第一特征信息，将所述第一特征信息与所述输入特征信息进行元素相加，获得第二特征信息；

17、对所述第二特征信息经过层归一化处理后，采用多层感知机模型进行编码，获得第三特征信息，将所述第二特征信息与所述第三特征信息进行元素相加，获得第四特征信息；

18、对所述第四特征信息经过层归一化处理后进行分块，计算每个块间的注意力信息，并根据所述第四特征信息和块间的注意力信息生成第五特征信息，将所述第四特征信息与所述第五特征信息进行元素相加，获得第六特征信息；

19、对所述第六特征信息经过层归一化处理后，采用多层感知机模型进行编码，获得第七特征信息，将所述第六特征信息和第七特征信息进行元素相加，获得输出特征信息。

20、进一步地，对所述输入特征信息经过层归一化处理后进行分块，计算每个块内的注意力信息，并根据所述输入特征信息和块内的注意力信息生成第一特征信息，包括：

21、将形状(a×a，b)的输入特征信息经过层归一化处理后进行分块，获取n×n个形状为(a×a，b)的第一特征块，a/a＝n；

22、将每个第一特征块分别与注意力机制的q参数矩阵、k参数矩阵和v参数矩阵相乘，分别获得形状为(a×a，b×2)的q特征矩阵、k特征矩阵和v特征矩阵；

23、对q特征矩阵、k特征矩阵和v特征矩阵进行重构处理，将所述输入特征信息的特征嵌入维度由b×2的一维形式变换为(2，b)的二维形式，获取形状为(a×a，2，b)的q特征矩阵、k特征矩阵和v特征矩阵；

24、将所述q特征矩阵与所述k特征矩阵的转置矩阵进行矩阵相乘，得到形状为(a×a，a×a)的关系矩阵；

25、将所述关系矩阵的矩阵元素映射至预设区间后，与v特征矩阵相乘获取形状为(a×a，2，b)的中间结果矩阵；

26、对所述中间结果矩阵在特征嵌入维度上进行平均操作，得到形状为(a×a，b)的第二特征块；

27、将每个第二特征块的特征向量按照分块前的布局重新排列，得到形状为(a×a，b)的第一特征信息。

28、进一步地，对所述第四特征信息经过层归一化处理后进行分块，计算每个块间的注意力信息，并根据所述第四特征信息和块间的注意力信息生成第五特征信息，包括：

29、将形状(a×a，b)的第四特征信息经过层归一化处理后进行分块，获取n×n个形状为(a×a，b)的第三特征块，a/a＝n；

30、将每个第三特征块中第二部分的特征向量与下一个第三特征块中第一部分的特征向量组合，获得n×n-1个形状为(a×a，b)的第四特征块，并将最后一个第三特征块中第二部分的特征向量与首个第三特征块中第一部分的特征向量组合，获得1个形状为(a×a，b)的第五特征块；

31、将每个第四特征块和第五特征块分别与注意力机制的q参数矩阵、k参数矩阵和v参数矩阵相乘，分别获得形状为(a×a，b×2)的q特征矩阵、k特征矩阵和v特征矩阵；

32、对q特征矩阵、k特征矩阵和v特征矩阵进行重构处理，将所述输入特征信息的特征嵌入维度由b×2的一维形式变换为(2，b)的二维形式，获取形状为(a×a，2，b)的q特征矩阵、k特征矩阵和v特征矩阵；

33、将所述q特征矩阵与所述k特征矩阵的转置矩阵进行矩阵相乘，得到形状为(a×a，a×a)的关系矩阵；

34、将所述关系矩阵的矩阵元素映射至预设区间后，与v特征矩阵相乘获取形状为(a×a，2，b)的中间结果矩阵，其中，第五特征块的关系矩阵经过掩码矩阵处理，所述掩码矩阵用于消除来自于不同第三特征块的特征向量之间的相关性；

35、对所述中间结果矩阵在特征嵌入维度上进行平均操作，得到形状为(a×a，b)的第六特征块；

36、将每个第六特征块的特征向量按照分块前的布局重新排列，得到形状为(a×a，b)的第五特征信息。

37、进一步地，将所述关系矩阵的矩阵元素映射至预设区间后，与v特征矩阵相乘获取形本文档来自技高网...

【技术保护点】

1.一种语音情绪检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在对语音数据进行特征抽取，获取输入特征信息之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述编码处理还包括：

4.根据权利要求1或3所述的方法，其特征在于，对所述输入特征信息进行合并处理，包括：

5.根据权利要求1所述的方法，其特征在于，对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，对所述输入特征信息经过层归一化处理后进行分块，计算每个块内的注意力信息，并根据所述输入特征信息和块内的注意力信息生成第一特征信息，包括：

7.根据权利要求5所述的方法，其特征在于，对所述第四特征信息经过层归一化处理后进行分块，计算每个块间的注意力信息，并根据所述第四特征信息和块间的注意力信息生成第五特征信息，包括：

8.根据权利要求6或7所述的方法，其特征在于，将所述关系矩阵的矩阵元素映射至预

9.根据权利要求1所述的方法，其特征在于，根据所述输出特征信息，确定所述语音数据对应的情绪类别，包括：

10.一种语音情绪检测设备，其中，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行权利要求1至9中任一项所述的方法。

11.一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令可被处理器执行以实现如权利要求1至9中任一项所述的方法。

...

【技术特征摘要】

1.一种语音情绪检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在对语音数据进行特征抽取，获取输入特征信息之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述编码处理还包括：

4.根据权利要求1或3所述的方法，其特征在于，对所述输入特征信息进行合并处理，包括：

7.根据权利要求5所述的方法，其特征在于，对所...

【专利技术属性】
技术研发人员：孔欧，
申请(专利权)人：上海蜜度科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人