【技术实现步骤摘要】
本专利技术涉及基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,属于人工智能。
技术介绍
1、端到端模型在自动语音识别(automatic speech recognition,asr)领域逐渐成为主流。由于越南语缺乏像中文或英文等语言那样的大量标注数据,目前越南语性能最佳的端到端asr模型基于大规模无监督预训练模型构建。从发音上看,越南语通常分为北部和南部口音,北部口音作为越南官方标准口音,互联网上大量的越南语语音数据如有声读物、新闻视频等主要为北部口音,越南语语音预训练模型主要基于北部口音数据进行训练和微调。然而,当对越南语南部口音进行识别时,由于口音差异,识别模型性能下降明显。越南语语音预训练模型基于大量越南语语音数据训练,仅从当前北部口音识别性能来看,预训练模型对内容信息已有较好的表征能力,本专利技术考虑分离域相关信息和域无关内容信息,使预训练模型专注于对内容信息的表征。此外,由于越南语南北口音在音高和节奏上存在发音差异,考虑对音高特征及频谱特征进行细粒度韵律表征,依赖符合越南语发音的口音韵律信息增强模型对南北差异性特
...【技术保护点】
1.基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:首先,提取口音音频数据的Fbank+Pitch特征进行细粒度口音韵律表征;其次,通过域对抗训练预训练模型解耦域无关内容特征,基于自适应选择实现域无关内容特征与韵律特征融合增强;最终联合域分类与混合CTC/attention实现口音自适应表征。
2.根据权利要求1所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述方法的具体步骤如下:
3.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述Step
...【技术特征摘要】
1.基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:首先,提取口音音频数据的fbank+pitch特征进行细粒度口音韵律表征;其次,通过域对抗训练预训练模型解耦域无关内容特征,基于自适应选择实现域无关内容特征与韵律特征融合增强;最终联合域分类与混合ctc/attention实现口音自适应表征。
2.根据权利要求1所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述方法的具体步骤如下:
3.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述step4中,使用交叉熵损失和结合梯度反转层的ctc损失训练韵律编码器,具体包括如下:
4.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法,其特征在于:所述step5中,将从wav2vec内容编码器提取的域无关内容特征h与韵律编码器提取的韵律特征p基于选择适应融合为...
【专利技术属性】
技术研发人员:余正涛,方妍文,赖华,董凌,王文君,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。