【技术实现步骤摘要】
本专利技术属于语音识别和语音评估领域,具体涉及一种基于多任务学习的英语辅助发音训练方法及系统。
技术介绍
1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
2、计算机辅助发音训练(capt,computer-aided pronunciation training)技术是一种利用计算机和软件技术帮助第二语言学习者改进发音的工具。capt系统可以对学习者的发音进行评分和错误检测,从而帮助学习者纠正发音错误。capt系统主要由两个任务组成,分别是自动发音评估(apa,automatic pronunciation assessment)和错误发音检测与诊断(mdd,mispronunciation detection and diagnosis)。
3、作为capt的分支任务,apa和mdd也使用相似的方法,例如基于发音优度(gop,goodness of pronunciation)特征的方法,基于预训练自监督学习模型的方法和基于深度特征的方法。但是基于gop特征的方法需要先将声学特
...【技术保护点】
1.一种基于多任务学习的英语辅助发音训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于多任务学习的英语辅助发音训练方法,其特征在于,对所述英语发音音频进行预处理,提取音频特征的过程包括:利用训练后的自监督学习模型提取音频特征,所述自监督学习模型包括卷积神经网络编码器、量化模块和Transformer上下文网络,所述卷积神经网络编码器使用多个卷积层对原始音频信号进行处理,生成低级别的连续的特征表示,所述量化模块使用矢量量化器将连续的特征表示转换为离散的特征编码,用于对比学习,所述Transformer上下文网络使用Transformer网络
...【技术特征摘要】
1.一种基于多任务学习的英语辅助发音训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于多任务学习的英语辅助发音训练方法,其特征在于,对所述英语发音音频进行预处理,提取音频特征的过程包括:利用训练后的自监督学习模型提取音频特征,所述自监督学习模型包括卷积神经网络编码器、量化模块和transformer上下文网络,所述卷积神经网络编码器使用多个卷积层对原始音频信号进行处理,生成低级别的连续的特征表示,所述量化模块使用矢量量化器将连续的特征表示转换为离散的特征编码,用于对比学习,所述transformer上下文网络使用transformer网络对量化后的特征进行建模,生成上下文表示,捕获长距离的依赖关系,并生成具有语义信息的声学深度特征。
3.如权利要求2所述的一种基于多任务学习的英语辅助发音训练方法,其特征在于,在自监督学习模型的训练过程中对模型进行微调,在transformer上下文网络后加一个全连接层和ctc解码器,利用ctc损失对训练结果进行优化。
4.如权利要求1所述的一种基于多任务学习的英语辅助发音训练方法,其特征在于,所述自动发音评估模型包括卷积增强的transformer编码器和多方面多粒度评分模块,其中,所述卷积增强的transformer编码器用于对深度特征向量进行编码,提取音素级、单词级和句子级共享的评分信息,所述多方面多粒度评分模块用于对每一个句子进行音素级、单词级和句子级三个粒度的评分,句子级包括完整性、准确性、流畅性、韵律和总分五个方面,单词级包括准确性、重音和总分三个方面,音素级包括准确性一个方面的评分。
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。