发音检测方法、装置及计算机可读介质制造方法及图纸

技术编号:30069343 阅读:15 留言:0更新日期:2021-09-18 08:20
本申请的实施例基于人工智能中的语音技术和机器学习方法,提供了一种发音检测方法、装置及计算机可读介质。该发音检测方法包括:从待检测的语音音频中提取音频帧特征;基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度,生成第一后验概率,并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度,生成第二后验概率;对所述第一后验概率和所述第二后验概率进行神经网络回归处理,生成所述语音音频中的音素对应于第二语言音素的概率得分。本申请实施例的技术方案可以得到精确的发音检测结果,提高发音检测的精确性和发音者的练习效率。的精确性和发音者的练习效率。的精确性和发音者的练习效率。

【技术实现步骤摘要】
发音检测方法、装置及计算机可读介质


[0001]本申请涉及计算机
,具体而言,涉及一种发音检测方法、装置及计算机可读介质。

技术介绍

[0002]在应用于教育的很多语言学习软件中,都是通过获取用户发出的语音,来进行识别,以判断用户的发音水准,并在发错音或者发不准的时候执行对应的教学。但是在很多情况下,相关技术中的识别方式仅仅是针对语音的音素来识别当前语音的发音情况,并未考虑到用户的用语习惯和水准等信息,而造成发音检测结果不够客观、不精确的问题,进而可能影响学习者的学习效率和积极性。

技术实现思路

[0003]本申请的实施例提供了一种发音检测方法、装置及计算机可读介质,进而至少在一定程度上可以得到精确的发音检测结果,提高发音检测的精确性和发音者的练习效率。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面,提供了一种发音检测方法,包括:从待检测的语音音频中提取音频帧特征;基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度,生成第一后验概率,并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度,生成第二后验概率;对所述第一后验概率和所述第二后验概率进行神经网络回归处理,生成所述语音音频中的音素对应于第二语言音素的概率得分。
[0006]根据本申请实施例的一个方面,提供了一种发音检测装置,包括:提取单元,用于从待检测的语音音频中提取音频帧特征;概率单元,用于基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度,生成第一后验概率,并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度,生成第二后验概率;得分单元,用于对所述第一后验概率和所述第二后验概率进行神经网络回归处理,生成所述语音音频中的音素对应于第二语言音素的概率得分。
[0007]在本申请的一些实施例中,基于前述方案,所述提取单元包括:增强单元,用于对所述语音音频进行信号增强处理,生成增强语音;分帧单元,用于基于设定帧长对所述增强语音进行分帧处理,生成语音序列;加窗单元,用于基于设定窗口长度对所述语音序列进行加窗处理,生成加窗语音序列;变换单元,用于对所述加窗语音序列进行傅里叶变换,生成频域语音信号;滤波单元,用于对所述频域语音信号进行滤波处理,生成所述音频帧特征。
[0008]在本申请的一些实施例中,基于前述方案,所述增强单元用于:获取所述语音音频中第一时刻对应的第一信号、所述第一时刻之前的第二时刻对应的第二信号;基于设定的信号系数和所述第二信号,计算所述第二信号对应的加权信号;基于所述第一信号强度与所述加权信号之间的差值,生成所述第一时刻对应的增强信号;将所述语音音频中各时刻
对应的增强信号进行组合,得到所述增强语音。
[0009]在本申请的一些实施例中,基于前述方案,所述概率单元包括:第一模型单元,用于将所述音频帧特征输入基于第一语言样本训练得到的第一声学模型,输出所述音频帧特征与所述第一语音音素的匹配度对应的第一后验概率;第一时刻单元,用于基于所述语音音频中各音素对应的波形,识别所述音素对应的始末时刻;第一特征单元,用于基于所述音素对应的始末时刻和所述音频帧特征对应的时间帧信息,确定所述音素中包含的音频帧特征;第一概率单元,用于对所述音素中包含的音频帧特征对应的第一后验概率进行均值计算,生成所述音素对应于所述第一语言音素的第一后验概率。
[0010]在本申请的一些实施例中,基于前述方案,所述发音检测装置还用于:获取基于第一语言生成的第一语音样本、以及所述第一语音样本对应的第一语音文本,并获取基于第二语言生成的第二语音样本、以及所述第二语音样本对应的第二语音文本;基于时延神经网络构建用于识别音频中所包含音素的声学模型;将所述第一语音样本输入所述声学模型中,并基于输出的第一音素与所述第一语音文本得到的第一损失函数,对所述声学模型的参数进行调整,得到所述第一声学模型;将所述第二语音样本输入所述声学模型中,并基于输出的第二音素与所述第二语音文本得到的第二损失函数,对所述声学模型的参数进行调整,得到第二声学模型。
[0011]在本申请的一些实施例中,基于前述方案,所述概率单元包括:第二模型单元,用于将所述音频帧特征输入基于第二语言样本训练得到的第二声学模型,输出所述音频帧特征与所述第二语音音素的匹配度对应的第二后验概率;第二时刻单元,用于基于所述语音音频的波形,识别所述音素对应的始末时刻;第二特征单元,用于基于所述音素对应的始末时刻和所述音频帧特征对应的时间帧信息,确定所述音素中包含的音频帧特征;第二概率单元,用于基于所述音素对应的始末时刻,对所述音素中各所述音频帧特征对应的第二后验概率进行均值计算,确定所述音素对应于所述第二语言音素的第二后验概率。
[0012]在本申请的一些实施例中,基于前述方案,所述得分单元用于:对所述第一后验概率和所述第二后验概率进行拼接,得到概率特征;对所述概率特征进行神经网络回归处理,生成所述语音音频中的音素对应于所述第二语言音素的概率得分。
[0013]在本申请的一些实施例中,基于前述方案,所述显示单元包括:置信度单元,用于基于所述音素对应于第二语言音素的概率得分,确定所述音素与所述第二语言音素之间的置信度;等级确定单元,用于基于所述置信度与设定的置信度阈值,确定所述语音音频中各音素对应的发音准确等级。
[0014]在本申请的一些实施例中,基于前述方案,所述置信度单元用于:从所述音素对应于第二语言音素的概率得分中,确定最大概率得分;计算指定音素对应于所述第二语言音素的概率得分与所述最大概率得分之间的比值;基于所述比值确定所述指定音素与所述第二语言音素之间的置信度。
[0015]在本申请的一些实施例中,基于前述方案,所述发音检测装置还包括显示单元,用于基于所述概率得分确定各音素对应的发音准确等级,并基于所述发音准确等级对应的显示方式显示所述音素对应的文本。
[0016]在本申请的一些实施例中,基于前述方案,所述显示单元用于:获取所述语音音频对应的文本;基于所述语音音频中的音素,对所述文本进行切词,生成各音素对应的文本;
基于各音素对应的发音准确等级,通过所述发音准确等级对应的显示方式显示所述音素对应的文本。
[0017]在本申请的一些实施例中,基于前述方案,所述发音检测装置还用于:从各所述音素对应的发音准确等级中,查询发音准确等级最低的目标音素;获取所述目标音素对应的发音示教信息,其中,所述发音示教信息包括以下信息中的至少一个:音标文本、正确读法以及示意视频;展示所述发音示教信息。
[0018]在本申请的一些实施例中,基于前述方案,所述发音检测装置还用于:从所述第二语言对应的词句库中获取包含所述目标音素的目标词句;展示所述目标词句;获取用户基于所述目标词句发送的练习音频;对所述练习音频进行检测,得到所述目标音频对应的发音准确等级。
[0019]根据本申请实施例的一个方面,提供了一种计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种发音检测方法,其特征在于,包括:从待检测的语音音频中提取音频帧特征;基于所述音频帧特征与预设第一语言中的第一语音音素之间的匹配度,生成第一后验概率,并基于所述音频帧特征与预设第二语言中的第二语音音素之间的匹配度,生成第二后验概率;对所述第一后验概率和所述第二后验概率进行神经网络回归处理,生成所述语音音频中的音素对应于第二语言音素的概率得分。2.根据权利要求1所述的方法,其特征在于,从待检测的语音音频中提取音频帧特征,包括:对所述语音音频进行信号增强处理,生成增强语音;基于设定帧长对所述增强语音进行分帧处理,生成语音序列;基于设定窗口长度对所述语音序列进行加窗处理,生成加窗语音序列;对所述加窗语音序列进行傅里叶变换,生成频域语音信号;对所述频域语音信号进行滤波处理,生成所述音频帧特征。3.根据权利要求2所述的方法,其特征在于,对所述语音音频进行信号增强处理,生成增强语音,包括:获取所述语音音频中第一时刻对应的第一信号、所述第一时刻之前的第二时刻对应的第二信号;基于设定的信号系数和所述第二信号,计算所述第二信号对应的加权信号;基于所述第一信号强度与所述加权信号之间的差值,生成所述第一时刻对应的增强信号;将所述语音音频中各时刻对应的增强信号进行组合,得到所述增强语音。4.根据权利要求1所述的方法,其特征在于,基于所述音频帧特征与预设的第一语音音素之间的匹配度,生成第一后验概率,包括:将所述音频帧特征输入基于第一语言样本训练得到的第一声学模型,输出所述音频帧特征与所述第一语音音素的匹配度对应的第一后验概率;基于所述语音音频中各音素对应的波形,识别所述音素对应的始末时刻;基于所述音素对应的始末时刻和所述音频帧特征对应的时间帧信息,确定所述音素中包含的音频帧特征;对所述音素中包含的音频帧特征对应的第一后验概率进行均值计算,生成所述音素对应于所述第一语言音素的第一后验概率。5.根据权利要求4所述的方法,其特征在于,将所述音频帧特征输入基于第一语言样本训练得到的第一声学模型,输出所述音频帧特征与所述第一语音音素的匹配度对应的第一后验概率之前,还包括:获取基于第一语言生成的第一语音样本、以及所述第一语音样本对应的第一语音文本,并获取基于第二语言生成的第二语音样本、以及所述第二语音样本对应的第二语音文本;基于时延神经网络构建用于识别音频中所包含音素的声学模型;将所述第一语音样本输入所述声学模型中,并基于输出的第一音素与所述第一语音文
本得到的第一损失函数,对所述声学模型的参数进行调整,得到所述第一声学模型;将所述第二语音样本输入所述声学模型中,并基于输出的第二音素与所述第二语音文本得到的第二损失函数,对所述声学模型的参数进行调整,得到第二声学模型。6.根据权利要求1所述的方法,其特征在于,基于所述音频帧特征与预设的第二语音音素之间的匹配度,生成第二后验概率,包括:将所述音频帧特征输入基于第二语言样本训练得到的第二声学模型,输出所述音频帧特征与所述第二语音音素的匹配度对应的第二后验概率;基于所述语音音频进行识别,确定所述音素对应的始末时刻;基于所述语音音频的波形,识别所述音素对应的始末时刻;基于所述音素对应的始末时刻,对所述音素中各所述音频帧特征对应的第二后验概率进行均值计算,确定所述音素对应于所述第二语言音素的第二后验概率。7.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:付凯奇林炳怀张劲松解焱陆冯晓莉王丽园
申请(专利权)人:北京语言大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1