基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法技术

技术编号：39933708 阅读：25 留言：0更新日期：2024-01-08 22:01

本发明专利技术涉及基于韵律域信息监督的解耦‑增强越南语语音识别口音自适应方法，属于人工智能技术领域。针对发音差异性下自适应语音识别问题，提出以韵律和域标签信息为指导的越南语语音解耦‑增强的自适应表征策略，实现了越南语南北口音差异性特征的自适应表征。首先，基于域对抗解耦实现域无关内容特征表征；其次，基于自适应选择实现域无关内容特征与韵律特征融合增强；最后，联合域分类与混合连接主义时序分类CTC/Attention实现越南语口音自适应识别。本发明专利技术显著降低了南部口音的识别词错率，缓解了识别模型因口音差异导致的性能下降问题，提高了越南语语音识别模型对南北口音的识别鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法，属于人工智能。

技术介绍

1、端到端模型在自动语音识别(automatic speech recognition,asr)领域逐渐成为主流。由于越南语缺乏像中文或英文等语言那样的大量标注数据，目前越南语性能最佳的端到端asr模型基于大规模无监督预训练模型构建。从发音上看，越南语通常分为北部和南部口音，北部口音作为越南官方标准口音，互联网上大量的越南语语音数据如有声读物、新闻视频等主要为北部口音，越南语语音预训练模型主要基于北部口音数据进行训练和微调。然而，当对越南语南部口音进行识别时，由于口音差异，识别模型性能下降明显。越南语语音预训练模型基于大量越南语语音数据训练，仅从当前北部口音识别性能来看，预训练模型对内容信息已有较好的表征能力，本专利技术考虑分离域相关信息和域无关内容信息，使预训练模型专注于对内容信息的表征。此外，由于越南语南北口音在音高和节奏上存在发音差异，考虑对音高特征及频谱特征进行细粒度韵律表征，依赖符合越南语发音的口音韵律信息增强模型对南北差异性特

【技术保护点】

1.基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法，其特征在于：首先，提取口音音频数据的Fbank+Pitch特征进行细粒度口音韵律表征；其次，通过域对抗训练预训练模型解耦域无关内容特征，基于自适应选择实现域无关内容特征与韵律特征融合增强；最终联合域分类与混合CTC/attention实现口音自适应表征。

2.根据权利要求1所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法，其特征在于：所述方法的具体步骤如下：

3.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法，其特征在于：所述Step4中，使用交叉熵损失...

【技术特征摘要】

1.基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法，其特征在于：首先，提取口音音频数据的fbank+pitch特征进行细粒度口音韵律表征；其次，通过域对抗训练预训练模型解耦域无关内容特征，基于自适应选择实现域无关内容特征与韵律特征融合增强；最终联合域分类与混合ctc/attention实现口音自适应表征。

2.根据权利要求1所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法，其特征在于：所述方法的具体步骤如下：

3.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法，其特征在于：所述step4中，使用交叉熵损失和结合梯度反转层的ctc损失训练韵律编码器，具体包括如下：

4.根据权利要求2所述的基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法，其特征在于：所述step5中，将从wav2vec内容编码器提取的域无关内容特征h与韵律编码器提取的韵律特征p基于选择适应融合为...

【专利技术属性】
技术研发人员：余正涛，方妍文，赖华，董凌，王文君，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人