发音检测方法、装置及计算机可读介质制造方法及图纸

技术编号：30069343 阅读：15 留言：0更新日期：2021-09-18 08:20

本申请的实施例基于人工智能中的语音技术和机器学习方法，提供了一种发音检测方法、装置及计算机可读介质。该发音检测方法包括：从待检测的语音音频中提取音频帧特征；基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度，生成第一后验概率，并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度，生成第二后验概率；对所述第一后验概率和所述第二后验概率进行神经网络回归处理，生成所述语音音频中的音素对应于第二语言音素的概率得分。本申请实施例的技术方案可以得到精确的发音检测结果，提高发音检测的精确性和发音者的练习效率。的精确性和发音者的练习效率。的精确性和发音者的练习效率。

全部详细技术资料下载

【技术实现步骤摘要】
发音检测方法、装置及计算机可读介质

[0001]本申请涉及计算机
，具体而言，涉及一种发音检测方法、装置及计算机可读介质。

技术介绍

[0002]在应用于教育的很多语言学习软件中，都是通过获取用户发出的语音，来进行识别，以判断用户的发音水准，并在发错音或者发不准的时候执行对应的教学。但是在很多情况下，相关技术中的识别方式仅仅是针对语音的音素来识别当前语音的发音情况，并未考虑到用户的用语习惯和水准等信息，而造成发音检测结果不够客观、不精确的问题，进而可能影响学习者的学习效率和积极性。

技术实现思路

[0003]本申请的实施例提供了一种发音检测方法、装置及计算机可读介质，进而至少在一定程度上可以得到精确的发音检测结果，提高发音检测的精确性和发音者的练习效率。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面，提供了一种发音检测方法，包括：从待检测的语音音频中提取音频帧特征；基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度，生成第一后验概率，并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度，生成第二后验概率；对所述第一后验概率和所述第二后验概率进行神经网络回归处理，生成所述语音音频中的音素对应于第二语言音素的概率得分。
[0006]根据本申请实施例的一个方面，提供了一种发音检测装置，包括：提取单元，用于从待检测的语音音频中提取音频帧特征；概率单元，用于基于所述音频帧...

【技术保护点】

【技术特征摘要】
1.一种发音检测方法，其特征在于，包括：从待检测的语音音频中提取音频帧特征；基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度，生成第一后验概率，并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度，生成第二后验概率；对所述第一后验概率和所述第二后验概率进行神经网络回归处理，生成所述语音音频中的音素对应于第二语言音素的概率得分。2.根据权利要求1所述的方法，其特征在于，从待检测的语音音频中提取音频帧特征，包括：对所述语音音频进行信号增强处理，生成增强语音；基于设定帧长对所述增强语音进行分帧处理，生成语音序列；基于设定窗口长度对所述语音序列进行加窗处理，生成加窗语音序列；对所述加窗语音序列进行傅里叶变换，生成频域语音信号；对所述频域语音信号进行滤波处理，生成所述音频帧特征。3.根据权利要求2所述的方法，其特征在于，对所述语音音频进行信号增强处理，生成增强语音，包括：获取所述语音音频中第一时刻对应的第一信号、所述第一时刻之前的第二时刻对应的第二信号；基于设定的信号系数和所述第二信号，计算所述第二信号对应的加权信号；基于所述第一信号强度与所述加权信号之间的差值，生成所述第一时刻对应的增强信号；将所述语音音频中各时刻对应的增强信号进行组合，得到所述增强语音。4.根据权利要求1所述的方法，其特征在于，基于所述音频帧特征与预设的第一语音音素之间的匹配度，生成第一后验概率，包括：将所述音频帧特征输入基于第一语言样本训练得到的第一声学模型，输出所述音频帧特征与所述第一语音音素的匹配度对应的第一后验概率；基于所述语音音频中各音素对应的波形，识别所述音素对应的始末时刻；基于所述音素对应的始末时刻和所述音频帧特征对应的时间帧信息，确定所述音素中包含的音频帧特征；对所述音素中包含的音频帧特征对应的第一后验概率进行均值计算，生成所述音素对应于所述第一语言音素的第一后验概率。5.根据权利要求4所述的方法，其特征在于，将所述音频帧特征输入基于第一语言样本训练得到的第一声学模型，输出所述音频帧特征与所述第一语音音素的匹配度对应的第一后验概率之前，还包括：获取基于第一语言生成的第一语音样本、以及所述第一语音样本对应的第一语音文本，并获取基于第二语言生成的第二语音样本、以及所述第二语音样本对应的第二语音文本；基于时延神经网络构建用于识别音频中所包含音素的声学模型；将所述第一语音样本输入所述声学模型中，并基于输出的第一音素与所述第一语音文
本得到的第一损失函数，对所述声学模型的参数进行调整，得到所述第一声学模型；将所述第二语音样本输入所述声学模型中，并基于输出的第二音素与所述第二语音文本得到的第二损失函数，对所述声学模型的参数进行调整，得到第二声学模型。6.根据权利要求1所述的方法，其特征在于，基于所述音频帧特征与预设的第二语音音素之间的匹配度，生成第二后验概率，包括：将所述音频帧特征输入基于第二语言样本训练得到的第二声学模型，输出所述音频帧特征与所述第二语音音素的匹配度对应的第二后验概率；基于所述语音音频进行识别，确定所述音素对应的始末时刻；基于所述语音音频的波形，识别所述音素对应的始末时刻；基于所述音素对应的始末时刻，对所述音素中各所述音频帧特征对应的第二后验概率进行均值计算，确定所述音素对应于所述第二语言音素的第二后验概率。7.根据权利要求1所述的方法，...

【专利技术属性】
技术研发人员：付凯奇，林炳怀，张劲松，解焱陆，冯晓莉，王丽园，
申请(专利权)人：北京语言大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人