一种用于语音识别的热词增强方法、设备及介质技术

技术编号:33652743 阅读:42 留言:0更新日期:2022-06-02 20:31
本申请公开了一种用于语音识别的热词增强方法、设备及介质。方法包括:通过编码器获取热词的音频文件,并根据音频文件提取特征,将提取的特征发送至CTC解码器,以通过CTC解码器获得流式识别结果;将流式识别结果输入至语言模型进行浅融合,以根据前缀树对识别结果进行偏置,得到搜索图;通过WFST进行浅融合,以根据搜索图获取最佳路径,将最佳路径发送至注意力解码器,通过注意力解码器获得精确结果,以完成对热词的增强。本申请通过WFST的浅融合、基于前缀树的深度偏置和语言模型相结合的热词增强方法,提高了对域外(OOD)音频的识别准确率。热词的识别准确率得到明显的提升。热词的识别准确率得到明显的提升。热词的识别准确率得到明显的提升。

【技术实现步骤摘要】
一种用于语音识别的热词增强方法、设备及介质


[0001]本申请涉及计算机
,尤其涉及一种用于语音识别的热词增强方法、设备及介质。

技术介绍

[0002]随着科技的发展,端到端的自动语音识别模型,正成为流式语音识别的热门选择。相比于传统的语音识别模型,端到端模型在训练数据方面更加高效准确,但是在一些超出训练集范围之外的特殊应用场景下,端到端模型的准确率却大打折扣。

技术实现思路

[0003]为了解决上述问题,本申请提出了一种用于语音识别的热词增强方法,包括:通过编码器获取热词的音频文件,并根据所述音频文件提取特征,将提取的所述特征发送至CTC解码器,以通过所述CTC解码器获得流式识别结果;将所述流式识别结果输入至语言模型进行浅融合,以根据前缀树对所述识别结果进行偏置,得到搜索图;通过WFST进行浅融合,以根据所述搜索图获取最佳路径,将所述最佳路径发送至注意力解码器,通过所述注意力解码器获得精确结果,以完成对所述热词的增强。
[0004]在一个示例中,通过WFST进行浅融合之前,所述方法还包括:确定所述WFST的译码阶本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于语音识别的热词增强方法,其特征在于,包括:通过编码器获取热词的音频文件,并根据所述音频文件提取特征,将提取的所述特征发送至CTC解码器,以通过所述CTC解码器获得流式识别结果;将所述流式识别结果输入至语言模型进行浅融合,以根据前缀树对所述识别结果进行偏置,得到搜索图;通过WFST进行浅融合,以根据所述搜索图获取最佳路径,将所述最佳路径发送至注意力解码器,通过所述注意力解码器获得精确结果,以完成对所述热词的增强。2.根据权利要求1所述的方法,其特征在于,通过WFST进行浅融合之前,所述方法还包括:确定所述WFST的译码阶段,在所述译码阶段中根据预先设定的所述热词,建立动态偏置类;根据所述热词确定词段级,根据所述词段级确定所述WFST的输入标签,并对所述WFST进行上下文前缀的设置,以缩小所述WFST的搜索范围。3.根据权利要求2所述的方法,其特征在于,建立动态偏置类,具体包括:确定所述动态偏置类的输入状态和转移路径,以根据所述输入状态和转移路径对所述动态偏置类进行确定化操作和最小化操作;对所述WFST中的输入标签和输出标签的标签状态进行判断,若所述标签状态为空状态,则将所述空状态对应的所述转移路径删除,以对所述动态偏置类进行空转移去除操作。4.根据权利要求2所述的方法,其特征在于,对所述WFST进行上下文前缀的设置,具体包括:根据所述词段级确定所述热词的前置信息,并根据所述前置信息确定所述词段级的上下文;根据所述上下文对所述WFST的搜索路径进行设置,以缩小所述WFST的搜索范围。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据所述上下文前缀确定所述WFST的奖励分数,并确定所述WFST的回退弧,以确定所述回退弧的累积奖励分数,并将所述累积奖励分数移除。6.根据权利要求1所述的方法,其特征在于,将所述流式识别结果输入至语言模型进行浅融合,根据前缀树对所述识...

【专利技术属性】
技术研发人员:尹青山宋虎王建华高明
申请(专利权)人:山东新一代信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1