处理语音数据的方法、模型生成方法、装置、和电子设备制造方法及图纸

技术编号:35649263 阅读:30 留言:0更新日期:2022-11-19 16:43
本公开的实施例提供了处理语音数据的方法、模型生成方法、装置、和电子设备。该方法可以包括确定与语音数据中的语音帧相对应的声学特征。该方法还可以包括从声学特征中提取与语音帧相对应的特征数据。此外,该方法可以进一步包括至少基于声学特征,确定与语音帧相对应的音素数据。该方法还可以包括基于音素数据和特征数据,确定语音数据的质量等级,其中质量等级指示语音数据的语音质量。本公开实现了帧级别的语音质量评估,从而优化了质量等级的确定过程,提升了用户体验。提升了用户体验。提升了用户体验。

【技术实现步骤摘要】
处理语音数据的方法、模型生成方法、装置、和电子设备


[0001]本公开的实施例涉及数据处理领域,并且更具体地,涉及处理语音数据的方法、模型生成方法、装置、和电子设备,以及计算机程序产品。

技术介绍

[0002]对于各国语言的发音而言,用户能够获知自己跟读或朗读发音是否标准是十分重要的。随着在线交互技术的逐渐普及,计算机辅助发音教学(Computer

Aided Pronunciation Training,CAPT)在用户的发音尝试中得到越来越多的应用。发音质量评估作为计算辅助发音教学的一个重要技术,主要用于评价用户口语发音的准确程度。在技术实践过程中,人们发现传统的发音质量评价的模型或应用存在鲁棒性不佳的问题,使得用户体验亟待完善。

技术实现思路

[0003]本公开的实施例提供了处理语音数据的方案和模型生成方案。
[0004]在本公开的第一方面中,提供了一种用于处理语音数据的方法。该方法可以包括确定与所述语音数据中的语音帧相对应的声学特征。该方法还可以包括从所述声学特征中提取与所述语音帧相对应的特征数据。此外,该方法可以进一步包括至少基于所述声学特征,确定与所述语音帧相对应的音素数据。该方法还可以包括基于所述音素数据和所述特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
[0005]在本公开的第二方面中,提供了一种模型生成方法。该方法可以包括确定与样本语音数据中的样本语音帧相对应的样本声学特征。该方法还可以包括确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级。此外,该方法可以包括从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分。并且,该方法可以包括基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级。该方法可以进一步包括至少基于所述附加样本语音数据以及所述附加质量等级训练所述模型。
[0006]在本公开的第三方面中,提供了一种用于处理语音数据的装置。该装置包括:声学特征确定模块,被配置为确定与所述语音数据中的语音帧相对应的声学特征;特征数据提取模块,被配置为从所述声学特征中提取与所述语音帧相对应的特征数据;音素数据确定模块,被配置为至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及质量等级确定模块,被配置为基于所述音素数据和所述多层特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
[0007]在本公开的第四方面中,提供了一种模型生成装置。该装置包括:样本声学特征确定模块,被配置为确定与样本语音数据中的样本语音帧相对应的样本声学特征;音素信息确定模块,被配置为确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级;附加样本语音数据确定模块,被配置为从所述样本语音数据中选择至少两个音素,作为
附加样本语音数据的至少一部分;附加监督信息确定模块,被配置为基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级;以及模型训练模块,被配置为至少基于所述附加样本语音数据以及所述附加质量等级训练所述模型。
[0008]在本公开的第五方面中,提供了一种电子设备,包括至少一个处理器;以及存储装置,用于存储至少一个程序,当至少一个程序被至少一个处理器执行,使得至少一个处理器实现根据本公开的第一、第二方面的方法。
[0009]在本公开的第六方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一、第二方面的方法。
[0010]提供
技术实现思路
部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
[0011]通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同或相似的参考标号通常代表相同或相似的部件。在附图中:
[0012]图1图示了本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图;
[0013]图2图示了根据本公开的实施例的用于训练和应用模型的详细示例环境的示意图;
[0014]图3图示了根据本公开的实施例的用于处理语音数据的过程300的流程图;
[0015]图4图示了根据本公开的实施例的用于确定音素数据的过程400的流程图;
[0016]图5图示了根据本公开的实施例的用于生成声学模型的示例过程500的示意图;
[0017]图6图示了根据本公开的实施例的用于确定质量等级的过程600的流程图;
[0018]图7图示了根据本公开的实施例的用于确定语音数据的质量等级的示例过程700的示意图;
[0019]图8图示了根据本公开的实施例的模型生成的过程800的流程图;
[0020]图9图示了根据本公开实施例的用于处理语音数据的装置900的示意性框图;
[0021]图10图示了适于用来实施本公开内容的实施例的示例设备1000的示意性框图。
[0022]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0023]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0024]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存
储介质等软件或硬件提供个人信息。
[0025]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0026]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0027]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0028]下面将参考附图中示出的若干示例实施例来描述本公开的原理。
[0029]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“一组示例实施例”。术语“另一实施例”表示“一组另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于处理语音数据的方法,包括:确定与所述语音数据中的语音帧相对应的声学特征;从所述声学特征中提取与所述语音帧相对应的特征数据;至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及基于所述音素数据和所述特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。2.根据权利要求1所述的方法,其中确定所述音素数据包括:将所述声学特征应用于预先训练的声学模型;基于所述声学特征,确定与所述语音帧相对应的音素似然值;以及基于与所述语音数据相对应的文本数据与所述音素似然值,确定所述音素数据。3.根据权利要求1所述的方法,其中提取所述特征数据包括:从预先训练的声学模型的多个层中提取相应的特征数据,作为所述特征数据。4.根据权利要求3所述的方法,其中确定所述质量等级包括:将所述音素数据和所述特征数据应用于预先训练的质量等级确定模型;基于预先确定的注意力机制对多层的所述特征数据进行加权;以及基于经加权的所述特征数据和所述音素数据确定所述质量等级。5.根据权利要求2所述的方法,还包括:获取第一组样本语音数据;利用所述第一组样本语音数据预训练所述声学模型;获取第二组样本语音数据和对应的样本文本;以及利用所述第二组样本语音数据和所述样本文本微调所述声学模型。6.根据权利要求5所述的方法,其中所述第二组样本语音数据包含具有第一预定时长的母语语音数据和具有第二预定时长的语言学习语音数据。7.根据权利要求4所述的方法,还包括:获取第三组样本语音数据和对应的跟读文本;利用所述第三组样本语音数据和对应的跟读文本预训练所述质量等级确定模型;获取第四组样本语音数据、对应的跟读文本以及专家标注的样本质量等级;以及利用所述第四组样本语音数据、对应的跟读文本以及专家标注的所述样本质量等级微调所述质量等级确定模型。8.根据权利要求7所述的方法,其中所述第三组样本语音数据是具有第三预定时长的语言学习语音数据,以及所述第四组样本语音数据是具有第四预定时长的语言学习语音数据。9.根据权利要求8所述的方法,还包括:确定与所述第三组样本语音数据中的样本语音帧相对应的样本声学特征;确定与所述样本语音帧相对应的每个样本音素的多层特征数据和质量等级;从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的附加质量等级;以及
至少基于所述附加样本语音数据以及所述附加质量等级训练所述质量等级确定模型。10.根据权利要求9所述的方法,其中确定与所述样本语音帧相对应的每个样本音素的质量等级包括:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述第三组样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确...

【专利技术属性】
技术研发人员:付凯奇顾怡炜高绍钧王凯田霄海李伟马泽君
申请(专利权)人:脸萌有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1