语音质量评价方法和装置制造方法及图纸

技术编号：32651923 阅读：30 留言：0更新日期：2022-03-17 10:57

本申请提供了一种语音质量评价方法和装置，涉及人工智能领域。该方法包括：通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后的语音；将增强后的语音输入至语音质量评价模型，获得该增强后的语音的损失信息，语音质量评价模型包括至少两个声学模型，上述损失信息是基于该至少两个声学模型的解码器对上述增强后的语音的解码结果作为真实值确定的；基于该损失信息，判断上述增强后的语音的质量是否达标。上述语音质量评价方法及装置能够与特定的语音增强算法、特定的ASR后端解耦，能反映语音增强算法对ASR后端的影响，可灵活适用于多种不同的场景。活适用于多种不同的场景。活适用于多种不同的场景。

全部详细技术资料下载

【技术实现步骤摘要】
语音质量评价方法和装置

[0001]本申请涉及人工智能领域，尤其涉及一种语音质量评价方法和装置。

技术介绍

[0002]随着人工智能技术的发展，自动语音识别(automatic speech recognition，ASR)技术越来越重要。ASR是实现人机交互的关键技术，机器能够通过ASR技术识别和理解人的语音，将语音转换为文字，或者，将语音转换为机器能够理解的命令，并根据命令来执行相应的操作。
[0003]由于实际环境噪声与干扰的存在，在进行语音识别之前，需要对采集到的语言信号进行语音增强处理。语音增强就是采用语音增强算法，从含噪语音中提取尽可能纯净的原始语音，即对语音进行降噪处理，从而提高语音质量，降低识别错误率。通常，需要采用语音质量评价方法来评价增强后的语音质量是否满足要求，从而评价语音增强算法的好坏。
[0004]目前的语音质量评价方法所采用的语音质量评价模型都是基于处理后的语音信号的，与特定的ASR后端无关，也无法呈现语音增强算法的改变对ASR的影响，例如，当ASR从一种设备扩展到另一种设备时，语...

【技术保护点】

【技术特征摘要】
1.一种语音质量评价方法，其特征在于，包括：通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后的语音；将所述增强后的语音输入至语音质量评价模型，获得所述增强后的语音的损失信息，所述语音质量评价模型包括至少两个声学模型，所述损失信息是基于所述至少两个声学模型的解码器对所述增强后的语音的解码结果作为真实值确定的；基于所述损失信息，判断所述增强后的语音的质量是否达标。2.根据权利要求1所述的方法，其特征在于，所述基于所述损失信息，判断所述增强后的语音的质量是否达标，包括：若所述损失信息小于或等于阈值，确定所述增强后的语音的质量达标；或者，若所述损失信息大于阈值，确定所述增强后的语音的质量不达标。3.根据权利要求1或2所述的方法，其特征在于，在所述判断所述增强后的语音的质量是否达标之后，所述方法还包括：若所述增强后的语音的质量达标，接受所述语音增强算法；或者，若所述增强后的语音的质量不达标，拒绝所述语音增强算法。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：在所述增强后的语音的质量不达标的情况下，优化所述语音增强算法。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述至少两个声学模型包括下列声学模型中的全部或部分：基于卷积神经网络CNN结构和联结主义时间分类器CTC损失函数的模型；基于变换器Transformer结构和转换器Transducer损失函数的模型；基于交叉熵损失函数的听、注意和拼写LAS模型；基于交叉熵损失函数的隐马尔可夫-深度神经网络HMM-DNN模型。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述将所述增强后的语音输入至语音质量评价模型，获得所述增强后的语音的损失信息，包括：将所述增强后的语音分别输入至所述至少两个声学模型，获得至少两个子损失信息，所述至少两个子损失信息与所述至少两个声学模型对应；基于所述至少两个子损失信息，确定所述损失信息。7.根据权利要求6所述的方法，其特征在于，所述损失信息是通过对所述至少两个子损失信息进行加权求和得到的。8.根据权利要求6或7所述的方法，其特征在于，所述将所述增强后的语音分别输入至所述至少两个声学模型，获得至少两个子损失信息，包括：将所述增强后的语音输入至所述至少两个声学模型的第一声学模型，获得所述第一声学模型中的解码器的解码结果；将所述第一声学模型中的解码器的解码结果作为真实值，计算所述增强后的语音的第一子损失信息。9.根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：基于已标注语料，对所述至少两个声学模型进行训练，获得所述语音质量评价模型。10.根据权利要求9所述的方法，其特征在于，所述已标注语料包括：理想近场语料和理想远场语料，所述理想近场语料对应近场场景，所述理想远场语料
对应远场场景。11.一种语音质量评价装置，其特征在于，包括：增强模块，用于通过语音增强算法，对设备采集到的语音信号进行增强，得到增强后...

【专利技术属性】
技术研发人员：房雷，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人