【技术实现步骤摘要】
基于音素的语音领域迁移方法、系统和电子设备
[0001]本专利技术涉及智能语音领域,尤其涉及一种基于音素的语音领域迁移方法、系统和电子设备。
技术介绍
[0002]由于E2E(end
‑
to
‑
end,端到端)ASR(automatic speech recognition,语音识别模型)的整体性的架构和需要语音
‑
文本配对训练数据进行训练的特性,其领域迁移一直是一个具有挑战性的任务。
[0003]由于未配对文本数据比语音
‑
文本配对数据更容易收集,因此在现实场景中,使用大量未配对文本的域自适应更为实用。得益于E2E的模块化设计,其能够利用纯文本数据进行定制,但利用未成对文本数据对E2E ASR训练的能力提升有限。为了解决这个缺点,会利用以下方法来定制E2E ASR模型:基于神经网络语音合成模型的领域迁移和基于单词引导语音拼接合成的领域迁移。
[0004]1、基于神经网络语音合成模型的领域迁移,其利用大量单说话人或多说话人语音数据训练语音 ...
【技术保护点】
【技术特征摘要】
1.一种基于音素的语音领域迁移方法,包括:对目标领域文本进行字素到音素转换,得到目标领域音素序列;根据音素N
‑
gram词典将所述目标领域音素序列转化为目标领域的多个音素N
‑
gram序列,其中,所述音素N
‑
gram词典由源领域真实语音构建;利用所述目标领域的多个音素N
‑
gram序列生成说话人多样性的目标领域语音片段,基于所述目标领域语音片段生成目标领域的合成音频。2.根据权利要求1所述的方法,其中,所述根据音素N
‑
gram词典将所述目标领域音素序列转化为目标领域的多个音素N
‑
gram序列还包括:为各音素N
‑
gram序列的两端附加静音序列,以模拟真实语音对话的停顿。3.根据权利要求1所述的方法,其中,所述音素N
‑
gram词典由源领域真实语音构建包括:基于对所述源领域真实语音的强制对齐结果生成所述音素N
‑
gram词典。4.根据权利要求1所述的方法,其中,在生成目标领域的合成音频之后,所述方法还包括:利用目标领域的合成音频以及源领域真实语音训练自动语音识别模型;其中,当使用源领域真实语音训练时,对所述自动语音识别模型的自动语音识别损失进行距离正则化处理。5.一种基于音素的语音领域迁移系统,包括:音素序列确定程序模块,用于对目标领域文本进行字素到音素转换,得到目标领域音素序列;N
‑
gram序列转换程序模块,用于根据音素N
‑<...
【专利技术属性】
技术研发人员:钱彦旻,王巍,龚勋,邵航,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。