语音处理方法、装置、存储介质、电子设备及系统制造方法及图纸

技术编号：37581635 阅读：21 留言：0更新日期：2023-05-15 07:56

本申请公开了一种语音处理方法、装置、存储介质、电子设备及系统。其中，该方法包括：获取待识别语音信号；采用预设语音识别方式将待识别语音信号转换为目标文本，其中，预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式；显示目标文本。本申请解决了相关技术中由于进行端到端语音识别处理时采用非自回归方式进行数据解码而导致语音识别效果较差的技术问题。而导致语音识别效果较差的技术问题。而导致语音识别效果较差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置、存储介质、电子设备及系统

[0001]本申请涉及语音处理
，具体而言，涉及一种语音处理方法、装置、存储介质、电子设备及系统。

技术介绍

[0002]自动语音识别(Automatic Speech Recognition，ASR)技术的目标是将语音中的词汇内容转换为计算机可读的输入内容，例如按键、二进制编码或者字符序列。随着移动互联网的快速普及，ASR技术可以广泛应用于工业、家电、通信、消费电子产品等多个领域，对实现人机自然交互具有重要意义。
[0003]相关技术中，采用基于序列到序列(Sequence to Sequence，Seq2Seq)模型的端到端语音识别系统进行语音识别处理，Seq2Seq模型由编码器和带有注意力机制的解码器构成。在Seq2Seq模型的解码阶段，通常是以从左到右的自回归方式进行解码，即当前的解码结果需要依赖前面的历史解码结果，这种解码方式虽然能够保证语音识别处理的识别准确率，但由于各个时刻的解码结果互相依赖，导致解码效率低下，进一步会对端到端语音识别系统的识别效率产生较大影响。为提升解码效率，相关技术中还可以采用非自回归的端到端语音识别系统进行语音识别处理，然而非自回归解码相比于自回归解码虽然在解码效率上有很大提升，但在识别效果上却有较大幅度的下降。
[0004]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种语音处理方法、装置、存储介质、电子设备及系统，以至少解决相关技术中由于进行端到端语...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，包括：获取待识别语音信号；采用预设语音识别方式将所述待识别语音信号转换为目标文本，其中，所述预设语音识别方式通过自回归语言处理方式将区分性准则应用至非自回归语音识别方式；显示所述目标文本。2.根据权利要求1所述的语音处理方法，其特征在于，采用所述预设语音识别方式将所述待识别语音信号转换为所述目标文本包括：采用第一语音识别模型对所述待识别语音信号进行语音识别，得到所述目标文本，其中，所述第一语音识别模型为目标非自回归语音识别模型，所述第一语音识别模型基于编辑距离的最低贝叶斯风险区分性准则训练得到。3.根据权利要求2所述的语音处理方法，其特征在于，所述语音处理方法还包括：采用第二语音识别模型对语音样本数据进行特征编码，得到第一编码结果，其中，所述第二语音识别模型为初始非自回归语音识别模型；通过预训练语言模型和所述第一编码结果确定目标损失，其中，所述预训练语言模型为预先训练的自回归形式的语言模型，所述目标损失为基于编辑距离的最低贝叶斯风险区分性损失；基于所述目标损失对所述第二语音识别模型的模型参数进行优化，得到所述第一语音识别模型。4.根据权利要求3所述的语音处理方法，其特征在于，通过所述预训练语言模型和所述第一编码结果确定所述目标损失包括：采用所述预训练语言模型对所述第一编码结果进行解码，生成预设语音预测序列；基于所述预设语音预测序列计算所述目标损失。5.根据权利要求3所述的语音处理方法，其特征在于，所述预训练语言模型基于文本样本数据训练得到，且所述预训练语言模型的模型参数保持不变。6.根据权利要求2所述的语音处理方法，其特征在于，采用所述第一语音识别模型对所述待识别语音信号进行语音识别，得到所述目标文本包括：采用所述第一语音识别模型对所述待识别语音信号进行特征编码，得到第二编码结果；采用第一解码方式对所述第二编码结果进行特征解码，得到所述目标文本，其中，所述第一解码方式为非自回归解码方式。7.根据权利要求6所述的语音处理方法，其特征在于，采用所述第一解码方式对所述第二编码结果进行特征解码，得到所述目标文本包括：采用贪婪搜索解码方式对所述第二编码结果进行特征解码，在语音特征...

【专利技术属性】
技术研发人员：黄健，张仕良，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人