一种采用标准化流的双向计算机辅助发音训练方法及设备技术

技术编号:37258601 阅读:11 留言:0更新日期:2023-04-20 23:34
本发明专利技术公开了一种采用标准化流的双向计算机辅助发音训练方法,包括以下步骤:S1:输入频谱通过标准化流生成输入的隐变量;S2:检测模型检测出错误发音;S3:通过时间检测得到持续时间;S4:错误发音的音素通过校正模型生成一个新的隐变量序列;S5:通过融合器将两个隐变量融合生成校正后的隐变量;S6:通过标准化流转换回校正频谱。本发明专利技术BiCAPT可以在检测错误发音的同时生成正确的发音,给予L2学习者更加有效的帮助,这点是在目前绝大部分的CAPT方法的基础上做了非常大的改进和提升。法的基础上做了非常大的改进和提升。法的基础上做了非常大的改进和提升。

【技术实现步骤摘要】
一种采用标准化流的双向计算机辅助发音训练方法及设备


[0001]本专利技术属于计算机辅助语音处理领域,尤其针对计算机辅助发音的反馈及校正,具体涉及一种采用标准化流的双向计算机辅助发音训练方法及设备。

技术介绍

[0002]第二语言(L2)学习者可能由于语言迁移(在第二语言学习中,学习者在使用第二语言时,借助于第一语言(L1)的发音、词义、结构规则或习惯来表达思想)、错误的字母到声音转换等情况而产生错误的发音。
[0003]计算机辅助发音训练(CAPT)是一项重要的技术,它能够通过计算机检测错误发音并且提供反馈,为L2学习者提供有效的教育服务。CAPT能够通过计算机检测错误发音并且提供反馈,为L2学习者提供有效的教育服务。但是到目前为止,大多数现有的CAPT方法基本只专注于检测错误发音的位置,而不能给予学习者正确发音的指导,使他们无法学习正确的发音。然而,关于CAPT中基于语音的教学的讨论很少。尽管错误发音检测很重要,但仅仅知道错误位置对于语言学习是不够的,没有正确发音的指导,学习者只会盲目尝试。

技术实现思路

[0004]为解决现有技术存在的上述技术问题,本专利技术提供一种采用标准化流的双向计算机辅助发音训练方法及设备,在检测错误发音的同时也能够生成正确的发音。本专利技术提出的新颖的双向CAPT方法,即BiCAPT(Bidirectional CAPT,即双向CAPT方法),在检测错误发音的同时能够生成正确的发音,并且通过校正原始发音而不是完整的文本到语音(TTS)生成得到最终的语音。这样做既可以使L2学习者在语言学习的过程中有效地找到自己的错误读音并对其进行校正,又可以保留原始的说话风格。
[0005]本专利技术采用的技术方案是:
[0006]一种采用标准化流的双向计算机辅助发音训练方法,其特征在于,包括以下步骤:
[0007]S1:输入频谱通过标准化流生成输入的隐变量;
[0008]S2:检测模型检测出错误发音;
[0009]S3:通过时间检测得到持续时间;
[0010]S4:错误发音的音素通过校正模型生成一个新的隐变量序列;
[0011]S5:通过融合器将两个隐变量融合生成校正后的隐变量;
[0012]S6:通过标准化流转换回校正频谱。
[0013]进一步的,所述步骤S1的具体过程为:输入频谱通过标准化流,以说话人向量为条件,生成输入的隐变量;说话人向量使模型能更好地适应说话人的变化;通过使用仿射操作确保标准化流的双射性;
[0014]标准化流通过使用可逆变换充当频谱特征空间X和语言隐变量空间Z之间的双射器;标准化流在频谱x和隐变量z之间应用了一系列可逆变换函数f:
[0015][0016]同样频谱x可通过以下公式获得:
[0017][0018]以上的转换以说话人向量s作为条件,通过使用仿射操作来保证双射性;对于文本到语音的生成,所有语音生成模型都设置为具有相同超参数的Glow

TTS(基于标准化流的并行化语音生成模型)主干;该模型将目标音素编码为z,并使用等式(2)将z转换为x,因此,z中包含语言特征。
[0019]进一步的,所述步骤S2的具体过程为:使用基于识别的方法进行检测,检测模型识别输入语音的发音音素,然后将识别的音素与目标文本对齐,不匹配的被标记为错误的发音。
[0020]进一步的,语音识别用Transformer(利用注意力机制来提高模型训练速度的模型)结构进行,使用隐变量作为Transformer编码器的输入;每个Transformer编码器层,设置注意力维度d
a
=512,前馈维度d
ff
=2048,以及注意力头的数量h=4。
[0021]进一步的,所述步骤S3中是通过对齐图A搜索单调对齐路径获得每个音素的持续时间。
[0022]进一步的,所述步骤S4的具体过程为:使用正确发音的话语来训练模型以根据目标音素生成相应的隐变量;校正模型采用Glow

TTS作为主干,使用检测模型的交叉注意力图进行对齐。
[0023]进一步的,所述步骤S5的具体过程为:在融合器中,将步骤S1与步骤S4中生成的两个隐变量对齐进行融合,将步骤S1中隐变量检测出来错误的位置用步骤S4中相应的部分进行替换,再附加上持续时间,最终生成校正后的隐变量。
[0024]进一步的,所述方法使用数据集Librispeech(包含文本和语音的有声读物数据集)作为训练数据集,使用来自数据集L2

Arctic的3599条人工注释话语作为测试集,评估错误检测以及语音生成方面的性能。
[0025]一种设备,其特征在于,所述设备包括Adam(Adaptive Moment Estimation,自适应矩估计)优化器和热身学习调度器,所述的Adam优化器和热身学习调度器应用于如权利要求1

8中任意一项所述的方法在实验使用的所有检测模型和校正模型中。
[0026]进一步的,还包括Parallel

WaveGAN(无蒸馏的对抗生成网络,快速且占用空间小的波形生成方法)声码器,所述Parallel

WaveGAN声码器用于在语音生成性能的评估中将所有生成的语音转换为频谱,再进行重建。
[0027]与现有技术相比,本专利技术的有益效果体现在:
[0028]本专利技术的BiCAPT可以在检测错误发音的同时生成正确的发音,给予L2学习者更加有效的帮助,这点是在目前绝大部分的CAPT方法的基础上做了非常大的改进和提升;同时BiCAPT在具有较少模型参数的情况下能够实现较好的检测结果;通过实验可以证明,BiCAPT可以达到较好的F1分数(用来衡量模型精确度和召回率的一种指标),但与其他模型相比,BiCAPT使用的模型参数更少。BiCAPT还可以在不同的CAPT要求下生成自然语音;通过广泛的实验证明了本专利技术是一种很有前途的CAPT方法。
附图说明
[0029]图1是本专利技术用于错误发音检测与校正的流程图。
具体实施方式
[0030]以下结合附图对本专利技术实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术实施例,并不用于限制本专利技术实施例。
[0031]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0032]下面将参考附图并结合示例性实施例来详细说明本专利技术。
[0033]参考图1,本专利技术的一种采用标准化流的双向计算机辅助发音训练方法,包括以下步骤:
[0034]S1:输入频谱通过标准化流生成输入的隐变量;
[0035]S2:检测模型检测出错误发音;
[0036]S3:通过时间检测得到持续时间;
[0037]S4:错误发音的音素通过校正模型生成一个新的隐变量序列;
[0038]S5:通过融合器将两个隐变量融合生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种采用标准化流的双向计算机辅助发音训练方法,其特征在于,包括以下步骤:S1:输入频谱通过标准化流生成输入的隐变量;S2:检测模型检测出错误发音;S3:通过时间检测得到持续时间;S4:错误发音的音素通过校正模型生成一个新的隐变量序列;S5:通过融合器将两个隐变量融合生成校正后的隐变量;S6:通过标准化流转换回校正频谱。2.如权利要求1所述的一种采用标准化流的双向计算机辅助发音训练方法,其特征在于,所述步骤S1的具体过程为:输入频谱通过标准化流,以说话人向量为条件,生成输入的隐变量;说话人向量使模型能更好地适应说话人的变化;通过使用仿射操作确保标准化流的双射性;标准化流通过使用可逆变换充当频谱特征空间X和语言隐变量空间Z之间的双射器;标准化流在频谱x和隐变量z之间应用了一系列可逆变换函数f:同样频谱x可通过以下公式获得:以上的转换以说话人向量s作为条件,通过使用仿射操作来保证双射性;对于文本到语音的生成,所有语音生成模型都设置为具有相同超参数的基于标准化流的并行化语音生成模型主干,英文简写为Glow

TTS;Glow

TTS模型将目标音素编码为z,并使用公式(2)将z转换为x,因此,z中包含语言特征。3.如权利要求1所述的一种采用标准化流的双向计算机辅助发音训练方法,其特征在于,所述步骤S2的具体过程为:使用基于识别的方法进行检测,检测模型识别输入语音的发音音素,然后将识别的音素与目标文本对齐,不匹配的被标记为错误的发音。4.如权利要求3所述的一种采用标准化流的双向计算机辅助发音训练方法,其特征在于,语音识别利用注意力机制来提高模型训练速度的模型结构进行,英文简写Transformer,使用隐变量作为Transformer编码器的输入;每个Transformer编码器层,设置注意力维度d
a
=512,前馈维度d
ff
=2048,以及注意力头的数量h=4。5.如权利要求1所述的一种采用标准化流的双向计算机辅助发音...

【专利技术属性】
技术研发人员:王曰海杨建义汤弋骋张展
申请(专利权)人:浙江大学金华研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1