语音的识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号：36899079 阅读：9 留言：0更新日期：2023-03-18 09:19

本公开公开了一种语音的识别方法、装置、电子设备和存储介质，尤其涉及人工智能技术领域。其中，具体实现方案为：获取待识别的语音对应的频谱图；根据所述频谱图中每个特征点的特征值，确定所述频谱图中每个特征点对应的全局特征；根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征；根据所述频谱图对应的全局特征以及所述每个频段的频域特征，确定待识别的频谱特征；对所述频谱特征进行识别，以确定所述语音对应的识别结果。由此，在进行语音识别的过程中，不仅考虑了频谱图中各个特征点的关系，并且考虑了频谱图中各个频段的频域特征，从而提高了语音识别结果的准确性和完整性。从而提高了语音识别结果的准确性和完整性。从而提高了语音识别结果的准确性和完整性。

全部详细技术资料下载

【技术实现步骤摘要】
语音的识别方法、装置、电子设备和存储介质

[0001]本公开涉及计算机
，具体涉及深度学习、语音技术等人工智能
，尤其涉及一种语音的识别方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的蓬勃发展，人工智能领域也得到了迅速发展，语音识别技术的应用也越来越广泛。相关技术中，通常使用语音识别模型进行语音识别，模型的准确性依赖于训练数据的规模以及训练数据中语音数据涵盖的发音类型的数量等。比如说，训练数据的规模足够大，但训练数据均为成人的语音数据，则使用经该训练数据训练得到的模型，对童声进行识别时，识别的准确性就较低。由此，如何提高语音识别的准确性，成为当前亟待解决的问题。

技术实现思路

[0003]本公开提供了一种语音的识别方法、装置、电子设备和存储介质。
[0004]本公开一方面，提供了一种语音的识别方法，包括：
[0005]获取待识别的语音对应的频谱图；
[0006]根据所述频谱图中每个特征点的特征值，确定所述频谱图中中每个特征点对应的全局特征；
[0007]根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征；
[0008]根据所述频谱图对应的全局特征以及所述每个频段的频域特征，确定待识别的频谱特征；
[0009]对所述频谱特征进行识别，以确定所述语音对应的识别结果。
[0010]本公开的另一方面，提供了一种语音识别模型，包括：依次相连的N个语音特征提取模块以及语音识别模块，...

【技术保护点】

【技术特征摘要】
1.一种语音的识别方法，其特征在于，包括：获取待识别的语音对应的频谱图；根据所述频谱图中每个特征点的特征值，确定所述频谱图中每个特征点对应的全局特征；根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征；根据所述频谱图对应的全局特征以及所述每个频段的频域特征，确定待识别的频谱特征；对所述频谱特征进行识别，以确定所述语音对应的识别结果。2.如权利要求1所述的方法，其特征在于，所述根据所述频谱图中每个特征点的特征值，确定所述频谱图中每个特征点对应的全局特征，包括：根据所述频谱图中每个特征点的特征值，确定所述频谱图中各个特征点之间的关联矩阵；根据所述关联矩阵及每个所述特征点的特征值，确定所述全局特征。3.如权利要求2所述的方法，其特征在于，所述根据所述频谱图中每个特征点的特征值，确定所述频谱图中各个特征点之间的关联矩阵，包括：基于第一映射函数及第二映射函数，分别将所述频谱图进行线性映射，以获取变换后的第一矩阵以及第二矩阵；将所述第一矩阵及所述第二矩阵进行点乘，以确定所述关联矩阵。4.如权利要求1所述的方法，其特征在于，所述根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定所述频谱图中每个频段的频域特征，包括：根据所述频谱图中每个特征点的特征值及每个特征点所属的频段，确定每个频段对应的特征均值；将每个特征点的特征值减去所属频段对应的特征均值，确定为每个特征点对应的更新后的特征值；将每个频段中更新后的最大特征值，确定为每个频段的频域特征。5.如权利要求1所述的方法，其特征在于，所述根据所述全局特征以及所述每个频段的频域特征，确定待识别的频谱特征，包括：将所述每个频段的频域特征进行归一化处理，以确定每个所述频段的频域特征在所述待识别的语音中的频域权重；根据每个所述频段的频域权重及所述全局特征，确定所述待识别的频谱特征。6.一种语音识别模型，其特征在于，包括：依次相连的N个语音特征提取模块以及语音识别模块，其中，N为大于1的正整数；每个所述语音特征提取模块中包括卷积网络、全局注意力网络以及频域注意力网络；所述卷积网络，用于对获取的语音特征进行卷积处理，以获取新的语音特征；所述全局注意力网络，用于对所述新的语音特征进行处理，以输出所述新的语音特征的全局特征；所述频域注意力网络，用于对所述新的语音特征进行处理，以确定所述新的语音特征中每个频段的频域特征；
所述语音识别模块，用于对第N个语音特征提取模块输出的全局特征及频域特征进行识别，以输出识别...

【专利技术属性】
技术研发人员：魏文琦，林倩倩，高强，蒋栋蔚，
申请(专利权)人：北京猿力未来科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人