基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法技术

技术编号:39933708 阅读:25 留言:0更新日期:2024-01-08 22:01
本发明专利技术涉及基于韵律域信息监督的解耦‑增强越南语语音识别口音自适应方法,属于人工智能技术领域。针对发音差异性下自适应语音识别问题,提出以韵律和域标签信息为指导的越南语语音解耦‑增强的自适应表征策略,实现了越南语南北口音差异性特征的自适应表征。首先,基于域对抗解耦实现域无关内容特征表征;其次,基于自适应选择实现域无关内容特征与韵律特征融合增强;最后,联合域分类与混合连接主义时序分类CTC/Attention实现越南语口音自适应识别。本发明专利技术显著降低了南部口音的识别词错率,缓解了识别模型因口音差异导致的性能下降问题,提高了越南语语音识别模型对南北口音的识别鲁棒性。

【技术实现步骤摘要】

本专利技术涉及基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,属于人工智能。


技术介绍

1、端到端模型在自动语音识别(automatic speech recognition,asr)领域逐渐成为主流。由于越南语缺乏像中文或英文等语言那样的大量标注数据,目前越南语性能最佳的端到端asr模型基于大规模无监督预训练模型构建。从发音上看,越南语通常分为北部和南部口音,北部口音作为越南官方标准口音,互联网上大量的越南语语音数据如有声读物、新闻视频等主要为北部口音,越南语语音预训练模型主要基于北部口音数据进行训练和微调。然而,当对越南语南部口音进行识别时,由于口音差异,识别模型性能下降明显。越南语语音预训练模型基于大量越南语语音数据训练,仅从当前北部口音识别性能来看,预训练模型对内容信息已有较好的表征能力,本专利技术考虑分离域相关信息和域无关内容信息,使预训练模型专注于对内容信息的表征。此外,由于越南语南北口音在音高和节奏上存在发音差异,考虑对音高特征及频谱特征进行细粒度韵律表征,依赖符合越南语发音的口音韵律信息增强模型对南北差异性特征的自适应表征。...

【技术保护点】

1.基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:首先,提取口音音频数据的Fbank+Pitch特征进行细粒度口音韵律表征;其次,通过域对抗训练预训练模型解耦域无关内容特征,基于自适应选择实现域无关内容特征与韵律特征融合增强;最终联合域分类与混合CTC/attention实现口音自适应表征。

2.根据权利要求1所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述方法的具体步骤如下:

3.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述Step4中,使用交叉熵损失...

【技术特征摘要】

1.基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:首先,提取口音音频数据的fbank+pitch特征进行细粒度口音韵律表征;其次,通过域对抗训练预训练模型解耦域无关内容特征,基于自适应选择实现域无关内容特征与韵律特征融合增强;最终联合域分类与混合ctc/attention实现口音自适应表征。

2.根据权利要求1所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述方法的具体步骤如下:

3.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述step4中,使用交叉熵损失和结合梯度反转层的ctc损失训练韵律编码器,具体包括如下:

4.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述step5中,将从wav2vec内容编码器提取的域无关内容特征h与韵律编码器提取的韵律特征p基于选择适应融合为...

【专利技术属性】
技术研发人员:余正涛方妍文赖华董凌王文君
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1