基于深度学习的口语训练方法和系统技术方案

技术编号:26847572 阅读:23 留言:0更新日期:2020-12-25 13:12
本发明专利技术提供了基于深度学习的口语训练方法和系统,其能够以预设的若干标准口语语音样本的样本声纹信息作为基础依据,对预设卷积神经网络模型进行训练,以使该预设卷积神经网络模型能够与当前口语语音发音模式相匹配,再通过训练后的预设卷积神经网络模型对目标对象的实际口语语音信息中的实际声纹信息进行分析处理,以此获取与之对应的声纹谱能量分布信息,从而根据该声纹谱能量分布信息对目标对象的实际口语发音进行定量的评判,其借助卷积神经网络模型对目标对象的实际声纹信息进行深度学习分析,从而对目标对象的实际口语发音情况进行定量的和客观的分析判断和提高口语发音训练的准确性、科学性和可靠性。

【技术实现步骤摘要】
基于深度学习的口语训练方法和系统
本专利技术涉及智能教育的
,特别涉及基于深度学习的口语训练方法和系统。
技术介绍
目前,在语音教学实践中,为了使学生能够掌握相应的口语发音技巧,通常都是向学生提供若干不同的口语发音训练素材,以便学生能够反复地对该口语发音训练素材进行跟读,从而使自身的实际口语发音能够接近该口语发音训练素材对应的标准口语发音。但是,上述口语发音训练方式只能依靠学生自身的主观感觉来确定口语发音的训练结果是否符合相应的标准,其无法对学生自身的实际口语发音情况进行定量的和客观的分析判断,这不利于学生针对自身口语发音的实际情况进行有针对性的调整改善,从而大大地降低口语发音训练的准确性、科学性和可靠性。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供基于深度学习的口语训练方法和系统,其通过获取若干标准口语语音样本对应的样本声纹信息,并对该样本声纹信息进行第一预处理,再将该第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练,并获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,本文档来自技高网...

【技术保护点】
1.基于深度学习的口语训练方法,其特征在于,其包括如下步骤:/n步骤S1,获取若干标准口语语音样本对应的样本声纹信息,并对所述样本声纹信息进行第一预处理,再将所述第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练;/n步骤S2,获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对所述实际声纹信息进行第二预处理,再将所述第二预处理后的实际声纹信息输入至训练后的所述预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果;/n步骤S3,根据所述卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据所述声纹谱能量分布信息,判断所述目标对象实际口语...

【技术特征摘要】
1.基于深度学习的口语训练方法,其特征在于,其包括如下步骤:
步骤S1,获取若干标准口语语音样本对应的样本声纹信息,并对所述样本声纹信息进行第一预处理,再将所述第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练;
步骤S2,获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对所述实际声纹信息进行第二预处理,再将所述第二预处理后的实际声纹信息输入至训练后的所述预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果;
步骤S3,根据所述卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据所述声纹谱能量分布信息,判断所述目标对象实际口语发音的正确性。


2.如权利要求1所述的基于深度学习的口语训练方法,其特征在于:
在所述步骤S1中,获取若干标准口语语音样本对应的样本声纹信息,并对所述样本声纹信息进行第一预处理,再将所述第一预处理后的样本声纹信息作为训练样本数据,对预设卷积神经网络模型进行训练具体包括:
步骤S101,获取若干标准口音语音样本数据,并对若干所述标准口语语音样本进行声纹提取处理,从而获得其对应的样本声纹信息;
步骤S102,根据下面公式(1),对所述样本声纹信息进行降噪滤波预处理,以此得到所述样本声纹信息对应的声纹幅值:



在上述公式(1)中,Si(a)表示降噪滤波预处理后的第i个样本声纹信息的第a帧声纹幅值,表示第i个样本声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;
步骤S103,将上述步骤S102得到的所有声纹幅值作为训练样本数据,对预设卷积神经网络模型进行训练。


3.如权利要求2所述的基于深度学习的口语训练方法,其特征在于:
在所述步骤S2中,获取来自目标对象的实际口语语音信息,提取其包含的实际声纹信息,并对所述实际声纹信息进行第二预处理,再将所述第二预处理后的实际声纹信息输入至训练后的所述预设卷积神经网络模型,从而得到相应的卷积神经网络处理结果具体包括:
步骤S201,在目标对象阅读预设文字语段的过程中,对所述目标对象进行多方位录音,以此获得来自所述目标对象的实际口语语音信息,并对所述实际口语语音信息进行声纹提取处理,从而获得其对应的实际声纹信息;
步骤S202,根据下面公式(2),对所述实际声纹信息进行降噪滤波预处理,以此得到所述实际声纹信息对应的声纹幅值:



在上述公式(2)中,S"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,λ表示预设降噪滤波加权系数、且其取值为0.98,表示卷积运算符号;
步骤S203,根据下面公式(3),对上述步骤S202得到的所有声纹幅值进行关于训练后的所述预设卷积神经网络计算处理,从而得到卷积处理结果



在上述公式(3)中,S"i(a)表示降噪滤波预处理后的第i个实际声纹信息的第a帧声纹幅值,表示第i个实际声纹信息原始的第a帧声纹幅值,n表示实际声纹信息的总数量,表示S"i(a)的梯度,表示的一阶范数,表示的二阶范数的平方值。


4.如权利要求3所述的基于深度学习的口语训练方法,其特征在于:
在所述步骤S3中,根据所述卷积神经网络处理结果,确定实际声纹信息对应的声纹谱能量分布信息,再根据所述声纹谱能量分布信息,判断所述目标对象实际口语发音的正确性具体包括:
步骤S301,根据下面公式(4),对所述卷积处理结果进行计算,从而确定实际声纹信息对应的声纹谱单帧能量值:



在上述公式(4)中,P(m)表示所述实际声纹信息中第m帧声纹对应的声纹谱单帧能量值,u表示所述实际声纹信息包含的声纹总帧数;
步骤S302,对上述步骤S301得到的所有声纹谱单帧能量值进行求和运算,以及将所述求和运算的结果与预设声纹谱能量总阈值进行比对,若所述求和运算的结果大于或者等于所述预设声纹谱能量总阈值,则确定所述目标对象实际口语发音具有正确性,否则,确定所述目标对象实际口音发音不具有正确性。


5.基于深度学习的口语训练系统,其特征在于,其包括样本声纹信息获取与预处理模块、卷积神经网络模型训练模块、实际声纹信息获取与处理模块、卷积神经网路模型处理模块、声纹谱能量分布信息确定模块和实际...

【专利技术属性】
技术研发人员:许昭慧
申请(专利权)人:上海松鼠课堂人工智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1