一种语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38886598 阅读：18 留言：0更新日期：2023-09-22 14:13

本公开提供了一种语音识别方法、装置、电子设备及存储介质。包括：获取目标语音数据，并提取目标语音数据对应的语音特征序列以及文本特征序列；基于语音特征序列以及文本特征序列得到目标语音数据对应各个初始识别结果的初始概率；利用文本特征序列确定初始识别结果第一概率分布以及第二概率分布；基于初始概率，第一概率分布以及第二概率分布计算各个初始识别结果对应的目标概率，并将目标概率最大的初始识别结果确定为目标语音数据对应的目标识别结果。本公开通过利用文本特征与识别结果之间不同的对应关系，对目标语音数据的文本特征序列对应的概率进行融合，不但能保证语音识别的准确性，而且还有效降低内部语言估计的计算量。计算量。计算量。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、装置、电子设备及存储介质

[0001]本公开涉及语音处理领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]目前跨领域场景和领域内任务都可以使用语言模型融合(Language model fusion)方法进行优化，区别只在于训练语言模型的文本语料不同。典型的方法有组件融合(component fusion)、深度融合(deep fusion)、冷融合(cold fusion)和浅融合(shallow fusion)等等。
[0003]在上述的模型融合过程中，为了提高内部语言估计模型(Internal Language Model Estimation,，缩写：ILME)的概率有效估计的准确性，通常会改变模型的结构，或者增加模型的参数量，从而导致ILME的计算量会随之增加，且性能也不能得到有效保证，最终影响了语音识别效果。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音识别方法、装置、电子设备及存储介质。
[000本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取目标语音数据，并提取所述目标语音数据对应的语音特征序列以及文本特征序列；基于所述语音特征序列以及所述文本特征序列得到所述目标语音数据对应各个初始识别结果的初始概率；利用所述文本特征序列确定所述初始识别结果的第一概率分布以及第二概率分布，其中，所述第一概率分布是基于第一文本特征与识别结果的第一对应关系得到的，所述第二概率分布是基于第二文本特征与识别结果的第二对应关系得到的；基于所述初始概率，所述第一概率分布以及所述第二概率分布计算各个所述初始识别结果对应的目标概率，并将所述目标概率最大的初始识别结果确定为所述目标语音数据对应的目标识别结果。2.根据权利要求1所述的方法，其特征在于，所述利用所述文本特征序列确定所述初始识别结果第一概率分布以及第二概率分布，包括：获取训练好的第一语言模型以及第二语言模型，其中，所述第一语言模型是基于端到端语音识别模型中的语言估计模型迁移得到的，所述第二语言模型为预设领域的语言模型；将所述文本特征序列输入所述第一语言模型，通过所述第一语言模型利用所述第一对应关系以及所述文本特征序列得到所述初始识别结果对应的第一概率分布；将所述文本特征序列输入所述第二语言模型，通过所述第二语言模型利用所述第二对应关系以及所述文本特征序列得到所述初始识别结果对应的第二概率分布。3.根据权利要求2所述的方法，其特征在于，所述获取训练好的第一语言模型，包括：获取语言估计模型以及预先构建的密度比率语言模型，其中，所述语言估计模型是根据训练好的端到端语音识别模型得到的；获取利用文本样本对所述语言估计模型进行训练得到的训练内容，其中，所述训练内容包括第三概率分布，所述第三概率分布是所述语言估计模型基于所述文本样本的文本特征预测得到的；将所述训练内容迁移至所述密度比率语言模型，得到所述第一语言模型。4.根据权利要求3所述的方法，其特征在于，所述获取语言估计模型，包括：获取训练好的端到端语音识别模型，其中，所述端到端语音识别模型包括编码器以及解码器；利用所述端到端语音识别模型中解码器构建所述端到端语音识别模型的语言估计模型。5.根据权利要求3所述的方法，其特征在于，所述将所述训练内容迁移至所述密度比率语言模型，得到所述第一语言模型，包括：获取所述密度比率语言模型基于所述文本样本的文本特征序列...

【专利技术属性】
技术研发人员：陈智鹏，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人