【技术实现步骤摘要】
处理语音数据的方法、模型生成方法、装置、和电子设备
[0001]本公开的实施例涉及数据处理领域,并且更具体地,涉及处理语音数据的方法、模型生成方法、装置、和电子设备,以及计算机程序产品。
技术介绍
[0002]对于各国语言的发音而言,用户能够获知自己跟读或朗读发音是否标准是十分重要的。随着在线交互技术的逐渐普及,计算机辅助发音教学(Computer
‑
Aided Pronunciation Training,CAPT)在用户的发音尝试中得到越来越多的应用。发音质量评估作为计算辅助发音教学的一个重要技术,主要用于评价用户口语发音的准确程度。在技术实践过程中,人们发现传统的发音质量评价的模型或应用存在鲁棒性不佳的问题,使得用户体验亟待完善。
技术实现思路
[0003]本公开的实施例提供了处理语音数据的方案和模型生成方案。
[0004]在本公开的第一方面中,提供了一种用于处理语音数据的方法。该方法可以包括确定与所述语音数据中的语音帧相对应的声学特征。该方法还可以包括从所述声学特征中提取与所述语音帧相对应的特征数据。此外,该方法可以进一步包括至少基于所述声学特征,确定与所述语音帧相对应的音素数据。该方法还可以包括基于所述音素数据和所述特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
[0005]在本公开的第二方面中,提供了一种模型生成方法。该方法可以包括确定与样本语音数据中的样本语音帧相对应的样本声学特征。该方法还可以包括确定与所述样本语音帧相对 ...
【技术保护点】
【技术特征摘要】
1.一种用于处理语音数据的方法,包括:确定与所述语音数据中的语音帧相对应的声学特征;从所述声学特征中提取与所述语音帧相对应的特征数据;至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及基于所述音素数据和所述特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。2.根据权利要求1所述的方法,其中确定所述音素数据包括:将所述声学特征应用于预先训练的声学模型;基于所述声学特征,确定与所述语音帧相对应的音素似然值;以及基于与所述语音数据相对应的文本数据与所述音素似然值,确定所述音素数据。3.根据权利要求1所述的方法,其中提取所述特征数据包括:从预先训练的声学模型的多个层中提取相应的特征数据,作为所述特征数据。4.根据权利要求3所述的方法,其中确定所述质量等级包括:将所述音素数据和所述特征数据应用于预先训练的质量等级确定模型;基于预先确定的注意力机制对多层的所述特征数据进行加权;以及基于经加权的所述特征数据和所述音素数据确定所述质量等级。5.根据权利要求2所述的方法,还包括:获取第一组样本语音数据;利用所述第一组样本语音数据预训练所述声学模型;获取第二组样本语音数据和对应的样本文本;以及利用所述第二组样本语音数据和所述样本文本微调所述声学模型。6.根据权利要求5所述的方法,其中所述第二组样本语音数据包含具有第一预定时长的母语语音数据和具有第二预定时长的语言学习语音数据。7.根据权利要求4所述的方法,还包括:获取第三组样本语音数据和对应的跟读文本;利用所述第三组样本语音数据和对应的跟读文本预训练所述质量等级确定模型;获取第四组样本语音数据、对应的跟读文本以及专家标注的样本质量等级;以及利用所述第四组样本语音数据、对应的跟读文本以及专家标注的所述样本质量等级微调所述质量等级确定模型。8.根据权利要求7所述的方法,其中所述第三组样本语音数据是具有第三预定时长的语言学习语音数据,以及所述第四组样本语音数据是具有第四预定时长的语言学习语音数据。9.根据权利要求8所述的方法,还包括:确定与所述第三组样本语音数据中的样本语音帧相对应的样本声学特征;确定与所述样本语音帧相对应的每个样本音素的多层特征数据和质量等级;从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的附加质量等级;以及
至少基于所述附加样本语音数据以及所述附加质量等级训练所述质量等级确定模型。10.根据权利要求9所述的方法,其中确定与所述样本语音帧相对应的每个样本音素的质量等级包括:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述第三组样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确...
【专利技术属性】
技术研发人员:付凯奇,顾怡炜,高绍钧,王凯,田霄海,李伟,马泽君,
申请(专利权)人:脸萌有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。