一种基于高维声学特征的语音识别方法及模型训练方法技术

技术编号：32906047 阅读：28 留言：0更新日期：2022-04-07 11:56

本申请公开了一种基于高维声学特征的语音识别方法及模型训练方法，涉及语音识别技术领域。该方法包括：获取待识别音频；基于预先训练的声学特征提取模型，获取待识别音频对应的高维特征，作为待识别音频的高维声学特征；获取待识别音频对应的识别场景，作为目标识别场景；将高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型，得到待识别音频对应的文本识别结果。如此，通过提取包含了更多有助于语音识别的特征信息，使得基于高维声学特征识别到的文本识别结果更准确，提高了语音识别的准确性；并且，调用与待识别音频的识别场景对应的语音识别模型，实现更具有针对性的语音识别，也提高了文本识别结果的准确性。也提高了文本识别结果的准确性。也提高了文本识别结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于高维声学特征的语音识别方法及模型训练方法

[0001]本申请涉及语音识别
，更具体地，涉及一种基于高维声学特征的语音识别方法及模型训练方法。

技术介绍

[0002]语音识别是一种涵盖了声学与语言学、数学与统计学计算机与人工智能等学科的技术，是人机自然交互技术中的关键环节。通过语音识别技术，来识别说话人说出的语音中的文本内容信息。语音识别技术在多场景有所应用，如电话，手机，应用程序，门禁系统，智能音响，机器人等。
[0003]在相关技术中，一般是通过模型训练的方式，预先训练出用于语音识别的语音识别模型。但是，针对例如垂直领域以及特征口音等特定识别领域，语音识别模型的识别准确率会下降，导致无法准确识别出在上述特定识别领域下的语音中的文本内容信息。

技术实现思路

[0004]有鉴于此，本申请提出了一种基于高维声学特征的语音识别方法及模型训练方法。
[0005]第一方面，本申请实施例提供了一种基于高维声学特征的语音识别方法，所述方法包括：获取待识别音频；基于预先训练的声学特征提取模型，获...

【技术保护点】

【技术特征摘要】
1.一种基于高维声学特征的语音识别方法，其特征在于，所述方法包括：获取待识别音频；基于预先训练的声学特征提取模型，获取所述待识别音频对应的高维特征，作为所述待识别音频的高维声学特征；获取所述待识别音频对应的识别场景，作为目标识别场景；将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型，得到所述待识别音频对应的文本识别结果。2.根据权利要求1所述的方法，其特征在于，所述声学特征提取模型包括特征提取模块、编码模块、对齐模块以及解码模块，所述基于预先训练的声学特征提取模型，获取所述待识别音频对应的高维特征，作为所述待识别音频的高维声学特征，包括：通过所述特征提取模块获取所述待识别音频的高维特征；通过所述编码模块对所述高维特征进行编码，得到第一编码结果；通过所述对齐模块对所述第一编码结果进行对齐处理，得到第二编码结果，所述第二编码结果中的高维特征的时间戳与所述待识别音频对应的音频特征的时间戳保持一致；通过所述解码模块对所述第二编码结果进行解码，得到解码后的高维特征，作为所述高维声学特征。3.根据权利要求1或2所述的方法，其特征在于，所述高维声学特征的帧数为多帧，所述将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型，得到所述待识别音频对应的文本识别结果，包括：对多帧高维声学特征中的每帧高维声学特征进行归一化；将进行归一化后的多帧高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型中进行语音识别，得到所述待识别音频对应的文本识别结果。4.根据权利要求3所述的方法，其特征在于，所述对多帧高维声学特征中的每帧高维声学特征进行归一化，包括：其中，A[i]为所述每帧高维声学特征中的第i个特征值，A[i]
’
为所述每帧高维声学特征中第i个特征值归一化后的特征值，M为所述每帧高维声学特征中的最大值，N为所述每帧高维声学特征中的最小值，u为所述每帧高维声学特征中的特征值均值。5.根据权利要求1所述的方法，其特征在于，所述获取所述待识别音频对应的识别场景，作为目标识别场景，包括：获取所述待识别音频的环境声纹特征；判断预设声纹特征库中是否存在与所述环境声纹特征匹配的预设声纹特征；若存在，则获取与所述环境声纹特征相匹配的预设声纹特征对应的识别场景，作为所述目标识别...

【专利技术属性】
技术研发人员：郑颖龙，赖蔚蔚，吴广财，郑杰生，周昉昉，林嘉鑫，陈颖璇，叶杭，梁运德，黄宏恩，
申请(专利权)人：广东电力信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人