【技术实现步骤摘要】
一种语音识别方法、计算机程序产品及电子设备
[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、计算机程序产品及电子设备。
技术介绍
[0002]自动语音识别技术(Automatic Speech Recognition,ASR)是一种将人的语音转换为文本的技术。相关技术中,端到端语音识别模型的建模过程较简单,语音信号通过该语音识别模型后可以直接映射到文本序列。其中一种较主流的端到端语音识别模型为基于CTC(Connectionist Temporal Classification)以及预测掩码的非自回归端到端语音识别模型,然而该模型输出识别结果准确率受限。
技术实现思路
[0003]本申请提供了一种语音识别方法、计算机程序产品及电子设备,可有效提高语音识别准确率。
[0004]根据本申请实施例的第一方面,提供一种语音识别方法,所述方法应用于端到端语音识别模型,所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型;所述方法包括:
[0005]获取语音特征通过所述编码子模 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法应用于端到端语音识别模型,所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型;所述方法包括:获取语音特征通过所述编码子模型进行编码后输出的特征序列,所述语音特征为语音信号进行特征提取后的特征;获取所述特征序列通过所述解码子模型进行解码后输出的文本序列,所述文本序列包括至少一个文本单元;至少掩蔽所述文本序列中置信度低于预设阈值的目标文本单元,得到掩蔽序列;将所述掩蔽序列和所述特征序列输入所述语言子模型,以使所述语言子模型根据所述特征序列对所述掩蔽序列进行解码;获取所述语言子模型输出的识别文本。2.根据权利要求1所述的方法,其特征在于,所述语言子模型为经过利用口语化文本优化后的模型,所述口语化文本包括至少一个文本单元,所述所述语言子模型的优化过程包括:针对所述口语化文本,按照预设的选中概率选定至少一个文本单元进行掩蔽处理;将掩蔽处理后的口语化文本输入待优化的语言子模型;根据损失函数更新所述待优化的语言子模型的参数。3.根据权利要求1所述的方法,其特征在于,所述目标文本单元的数量不超过预设的数量阈值。4.根据权利要求1所述的方法,其特征在于,所述语言子模型的训练过程包括:将用于训练的文本进行分词处理;按照预设的选中概率选定所述文本中的至少一个词语进行掩蔽处理;将掩蔽处理后的文本输入待训练的语言子模型;根据损失函数更新所述待训练的语言子模型的参数。5.根据权利要求4所述的方法,其特征在于,所述掩蔽序列至少包括如下三类序列:掩蔽所述目标文...
【专利技术属性】
技术研发人员:吴振宗,徐易楠,康世胤,许佳,
申请(专利权)人:广州虎牙科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。