一种语音识别方法、计算机程序产品及电子设备技术

技术编号：30635165 阅读：67 留言：0更新日期：2021-11-04 00:18

本申请提供一种语音识别方法、计算机程序产品及电子设备，所述方法应用于端到端语音识别模型，所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型；所述方法通过将经过解码子模型解码后的文本序列中置信度低于阈值的目标文本单元掩蔽，并利用语言子模型根据编码子模型输出的特征序列对掩蔽序列解码得到识别文本。在端到端语音识别模型中引入语言子模型，可以有效减少多音字对识别结果的影响，从而提升了语音识别准确率。从而提升了语音识别准确率。从而提升了语音识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、计算机程序产品及电子设备

[0001]本申请涉及语音识别
，尤其涉及一种语音识别方法、计算机程序产品及电子设备。

技术介绍

[0002]自动语音识别技术(Automatic Speech Recognition，ASR)是一种将人的语音转换为文本的技术。相关技术中，端到端语音识别模型的建模过程较简单，语音信号通过该语音识别模型后可以直接映射到文本序列。其中一种较主流的端到端语音识别模型为基于CTC(Connectionist Temporal Classification)以及预测掩码的非自回归端到端语音识别模型，然而该模型输出识别结果准确率受限。

技术实现思路

[0003]本申请提供了一种语音识别方法、计算机程序产品及电子设备，可有效提高语音识别准确率。
[0004]根据本申请实施例的第一方面，提供一种语音识别方法，所述方法应用于端到端语音识别模型，所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型；所述方法包括：
[0005]获取语音特征通过所述编码子模...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法应用于端到端语音识别模型，所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型；所述方法包括：获取语音特征通过所述编码子模型进行编码后输出的特征序列，所述语音特征为语音信号进行特征提取后的特征；获取所述特征序列通过所述解码子模型进行解码后输出的文本序列，所述文本序列包括至少一个文本单元；至少掩蔽所述文本序列中置信度低于预设阈值的目标文本单元，得到掩蔽序列；将所述掩蔽序列和所述特征序列输入所述语言子模型，以使所述语言子模型根据所述特征序列对所述掩蔽序列进行解码；获取所述语言子模型输出的识别文本。2.根据权利要求1所述的方法，其特征在于，所述语言子模型为经过利用口语化文本优化后的模型，所述口语化文本包括至少一个文本单元，所述所述语言子模型的优化过程包括：针对所述口语化文本，按照预设的选中概率选定至少一个文本单元进行掩蔽处理；将掩蔽处理后的口语化文本输入待优化的语言子模型；根据损失函数更新所述待优化的语言子模型的参数。3.根据权利要求1所述的方法，其特征在于，所述目标文本单元的数量不超过预设的数量阈值。4.根据权利要求1所述的方法，其特征在于，所述语言子模型的训练过程包括：将用于训练的文本进行分词处理；按照预设的选中概率选定所述文本中的至少一个词语进行掩蔽处理；将掩蔽处理后的文本输入待训练的语言子模型；根据损失函数更新所述待训练的语言子模型的参数。5.根据权利要求4所述的方法，其特征在于，所述掩蔽序列至少包括如下三类序列：掩蔽所述目标文...

【专利技术属性】
技术研发人员：吴振宗，徐易楠，康世胤，许佳，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人