一种采用标准化流的双向计算机辅助发音训练方法及设备技术

技术编号：37258601 阅读：11 留言：0更新日期：2023-04-20 23:34

本发明专利技术公开了一种采用标准化流的双向计算机辅助发音训练方法，包括以下步骤：S1：输入频谱通过标准化流生成输入的隐变量；S2：检测模型检测出错误发音；S3：通过时间检测得到持续时间；S4：错误发音的音素通过校正模型生成一个新的隐变量序列；S5：通过融合器将两个隐变量融合生成校正后的隐变量；S6：通过标准化流转换回校正频谱。本发明专利技术BiCAPT可以在检测错误发音的同时生成正确的发音，给予L2学习者更加有效的帮助，这点是在目前绝大部分的CAPT方法的基础上做了非常大的改进和提升。法的基础上做了非常大的改进和提升。法的基础上做了非常大的改进和提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种采用标准化流的双向计算机辅助发音训练方法及设备

[0001]本专利技术属于计算机辅助语音处理领域，尤其针对计算机辅助发音的反馈及校正，具体涉及一种采用标准化流的双向计算机辅助发音训练方法及设备。

技术介绍

[0002]第二语言(L2)学习者可能由于语言迁移(在第二语言学习中，学习者在使用第二语言时，借助于第一语言(L1)的发音、词义、结构规则或习惯来表达思想)、错误的字母到声音转换等情况而产生错误的发音。
[0003]计算机辅助发音训练(CAPT)是一项重要的技术，它能够通过计算机检测错误发音并且提供反馈，为L2学习者提供有效的教育服务。CAPT能够通过计算机检测错误发音并且提供反馈，为L2学习者提供有效的教育服务。但是到目前为止，大多数现有的CAPT方法基本只专注于检测错误发音的位置，而不能给予学习者正确发音的指导，使他们无法学习正确的发音。然而，关于CAPT中基于语音的教学的讨论很少。尽管错误发音检测很重要，但仅仅知道错误位置对于语言学习是不够的，没有正确发音的指导，学习者只会盲目尝试。

技术实现思路

[0004]为解决现有技术存在的上述技术问题，本专利技术提供一种采用标准化流的双向计算机辅助发音训练方法及设备，在检测错误发音的同时也能够生成正确的发音。本专利技术提出的新颖的双向CAPT方法，即BiCAPT(Bidirectional CAPT，即双向CAPT方法)，在检测错误发音的同时能够生成正确的发音，并且通过校正原始发音而不是完整的文本到语音(TTS)生成得到最终的语音。这样做既...

【技术保护点】

【技术特征摘要】
1.一种采用标准化流的双向计算机辅助发音训练方法，其特征在于，包括以下步骤：S1：输入频谱通过标准化流生成输入的隐变量；S2：检测模型检测出错误发音；S3：通过时间检测得到持续时间；S4：错误发音的音素通过校正模型生成一个新的隐变量序列；S5：通过融合器将两个隐变量融合生成校正后的隐变量；S6：通过标准化流转换回校正频谱。2.如权利要求1所述的一种采用标准化流的双向计算机辅助发音训练方法，其特征在于，所述步骤S1的具体过程为：输入频谱通过标准化流，以说话人向量为条件，生成输入的隐变量；说话人向量使模型能更好地适应说话人的变化；通过使用仿射操作确保标准化流的双射性；标准化流通过使用可逆变换充当频谱特征空间X和语言隐变量空间Z之间的双射器；标准化流在频谱x和隐变量z之间应用了一系列可逆变换函数f：同样频谱x可通过以下公式获得：以上的转换以说话人向量s作为条件，通过使用仿射操作来保证双射性；对于文本到语音的生成，所有语音生成模型都设置为具有相同超参数的基于标准化流的并行化语音生成模型主干，英文简写为Glow
‑
TTS；Glow
‑
TTS模型将目标音素编码为z，并使用公式(2)将z转换为x，因此，z中包含语言特征。3.如权利要求1所述的一种采用标准化流的双向计算机辅助发音训练方法，其特征在于，所述步骤S2的具体过程为：使用基于识别的方法进行检测，检测模型识别输入语音的发音音素，然后将识别的音素与目标文本对齐，不匹配的被标记为错误的发音。4.如权利要求3所述的一种采用标准化流的双向计算机辅助发音训练方法，其特征在于，语音识别利用注意力机制来提高模型训练速度的模型结构进行，英文简写Transformer，使用隐变量作为Transformer编码器的输入；每个Transformer编码器层，设置注意力维度d
a
＝512，前馈维度d
ff
＝2048，以及注意力头的数量h＝4。5.如权利要求1所述的一种采用标准化流的双向计算机辅助发音...

【专利技术属性】
技术研发人员：王曰海，杨建义，汤弋骋，张展，
申请(专利权)人：浙江大学金华研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人