【技术实现步骤摘要】
领域自适应框架的训练方法、系统、电子设备和存储介质
[0001]本专利技术涉及智能语音领域,尤其涉及一种领域自适应框架的训练方法、系统、电子设备和存储介质。
技术介绍
[0002]随着语音技术的发展,语音识别的准确率得到了很大的提升,尤其是深度学习的应用,但是当应用场景和环境发生变化时,识别的准确率会明显下降,这往往是由训练集和测试集分布不同导致的,因此会使用到领域自适应。
[0003]现有技术中的领域自适应方法通常都是采用语言模型分数融合的形式对目标域进行改善,但都是以损害源域性能为代价。为了避免性能的损害,也有采用LLR(Log
‑
Likelihood Ratio,对数似然比率)方法用N
‑
gram语言模型先判断哪些是稀有词,然后对稀有词的解码分数进行增大,从而达到提升目标领域性能时不会损害源域的性能。
[0004]具体的,现有方法利用目标域文本训练目标域的语言模型,在解码时采用语言模型分数融合的方法直接自适应到目标领域上;采用N
‑
gram语言模型先 ...
【技术保护点】
【技术特征摘要】
1.一种领域自适应框架的训练方法,包括:利用领域自适应框架的编码器确定训练语音的隐层特征;将所述隐层特征输入至所述领域自适应框架的解码器,其中,所述解码器包括:判别器以及迁移器;固定所述判别器,基于所述迁移器确定出所述隐层特征在固定判别器预测的第一领域下的第一预测识别解码结果,基于所述训练语音的基准识别解码结果以及所述第一预测识别解码结果对所述迁移器进行训练;基于训练后的迁移器确定出所述隐层特征在所述判别器预测的第二领域下的第二预测识别解码结果,基于所述训练语音的基准识别解码结果以及所述第二预测识别解码结果对所述判别器进行训练,得到所述判别器以及所述迁移器分别训练的领域自适应框架。2.根据权利要求1所述的方法,其中,所述判别器预测的第一领域以及第二领域由二分类的长短期记忆网络确定,所述第一领域以及第二领域包括:源域、目标域。3.根据权利要求1所述的方法,其中,所述判别器包括:领域语言模型、N
‑
gram模型、滑窗N
‑
gram模型、神经网络语言模型、内部语言模型、神经网络领域分类器。4.一种基于领域自适应框架的语音识别方法,包括:将语音信号输入至权利要求1训练的领域自适应框架,利用所述领域自适应框架的编码器确定所述语音信号的隐层特征;所述解码器中的判别器通过所述隐层特征以及所述语音信号的历史识别结果确定出所述隐层特征的源域得分以及目标域得分;若基于所述源域得分以及目标域得分确定出所述隐层特征的领域为目标域时,所述解码器中的迁移器利用基于所述目标域得分与所述源域得分确定的增量分数对所述隐层特征进行密度比迁移,以将所述隐层特征迁移至所述目标域的语言模型进行语音识别。5.根据权利要求4所述的方法,其中,若基于所述源域得分以及目标域得分确定出所述隐层特征的领域为源域时,利用源域的语言模型对所述隐层特征进行语音识别。6.根据权利要求4所述的方法,其中,所述增量分数由所述目标域得分与所述源域得分的差值确定。...
【专利技术属性】
技术研发人员:谭天,邵航,钱彦旻,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。