一种语音处理方法及相关装置制造方法及图纸

技术编号：44623930 阅读：19 留言：0更新日期：2025-03-17 18:21

一种语音处理方法，应用于对语音进行识别。在该方法中，在执行语音处理的过程中，采用训练后的语音增强网络先对语音执行增强处理，再对增强后的语音执行语音识别。并且，所采用的训练后的语音增强网络是基于多个并列的语音识别网络训练得到的，且多个语音识别网络的输出用于联合构成对语音增强网络进行训练的损失函数，能够有效地提高训练后的语音增强网络的泛化性和通用性。这样，基于训练后的语音增强网络来执行语音处理能够有效地提高语音识别的效果，且训练后的语音增强网络能够推广应用到未经过联合训练的语音识别网络上，从而满足各种场景下的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能(artificial intelligence，ai)，尤其涉及一种语音处理方法及相关装置。

技术介绍

1、自动语音识别(automatic speech recognition，asr)技术，是一种将说话人语音自动转化为文本信息的技术。如图1所示，通常由拾音设备先接收来自说话人的语音信号，再由部署于拾音设备外部的自动语音识别系统对语音信号进行识别，最后输出识别文本。

2、随着自动语音识别技术的成熟，以语音为交互入口的各类产品也纷纷涌向市场，出现在日常生活中。然而，真实场景下自然的语音交互会受到许多因素的干扰，比如环境噪声、房间混响等，这些因素的存在会降低系统对目标语音的识别率，使得用户体验变差。如何提高真实场景中语音识别系统的准确率，是目前业界长久面临的一个的问题。

3、为提高语音识别的准确率，通常是在语音识别网络前增加一个语音增强网络，由语音增强网络先对语音数据进行降噪处理后再输入到语音识别网络中执行语音识别。然而，相关技术中所增加的语音增强网络通常是与特定的语音识别网络搭配使用的，导致语...

【技术保护点】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述多个语音识别网络中，不同的语音识别网络对应于不同类型的网络结构。

3.根据权利要求1或2所述的方法，其特征在于，在所述多个语音识别网络中，不同的语音识别网络之间的结构相似度小于第一阈值。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述训练后的语音增强网络是基于总损失函数值对所述语音增强网络训练得到的，所述总损失函数值是对所述多个语音识别网络中对应的多个损失函数值加权求和得到的，所述多个损失函数值是基于所述多个语音识别网络的输出得到的。

5....

【技术特征摘要】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述多个语音识别网络中，不同的语音识别网络对应于不同类型的网络结构。

3.根据权利要求1或2所述的方法，其特征在于，在所述多个语音识别网络中，不同的语音识别网络之间的结构相似度小于第一阈值。

5.根据权利要求4所述的方法，其特征在于，所述多个语音识别网络中的每个语音识别网络对应的权重值与所述每个语音识别网络对应的损失函数值具有正相关的关系。

6.根据权利要求4或5所述的方法，其特征在于，所述每个语音识别网络对应的权重值还与所述每个语音识别网络在历史迭代训练过程中的权重值相关。

7.根据权利要求4-6任意一项所述的方法...

【专利技术属性】
技术研发人员：万旭成，周欢，刘凯，杜梓晴，闫晓鹏，谢磊，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人