用于确定语音数据的质量的方法、装置、设备和存储介质制造方法及图纸

技术编号:35521544 阅读:15 留言:0更新日期:2022-11-09 14:41
本公开的实施例涉及用于确定语音数据的质量的方法、装置、设备和存储介质。该方法包括确定所获取的语音数据的特征。该方法还包括基于特征,获取针对语音数据的第一质量等级和第二质量等级,第一质量等级与第一语言有关,第二质量等级与第二语言有关。该方法还包括基于第一质量等级和第二质量等级,确定针对语音数据的目标质量等级,目标质量等级指示语音数据的语音质量。通过该方法,能够提高跨领域评价语音数据的质量的准确性和效率,并且提高了数据的利用率,改进了用户体验。改进了用户体验。改进了用户体验。

【技术实现步骤摘要】
用于确定语音数据的质量的方法、装置、设备和存储介质


[0001]本公开的实施例总体涉及语音数据处理领域,具体涉及用于确定语音数据的质量的方法、装置、设备和存储介质。

技术介绍

[0002]随着计算机技术的发展,语音处理的水平也在快速的改进。利用计算设备合成语音数据或对语音数据进行转换也越来越多的用于各种设备和应用。对于这些语音数据,可以通过语音质量进行评价,因为语音质量是反映通过语音合成、语音转换等系统性能的主要指标。平均意见得分(Mean Opinion Score,MOS)则是标注人员对合成音频进行听力测试后,对该音频的语音质量进行的主观评价分数。由于传统的MOS打分需要大量的标注人员进行参与,这一主观评价过程会导致高额的费用和过长的耗时。因此,在语音数据的处理过程中还存在许多需要解决的问题。

技术实现思路

[0003]本公开的实施例提供了一种用于确定语音数据的质量的方法、装置、设备和存储介质。
[0004]根据本公开的第一方面,提供了一种确定语音数据的质量的方法。该方法包括确定所获取的语音数据的特征。该方法还包括基于特征,获取针对语音数据的第一质量等级和第二质量等级,第一质量等级与第一语言有关,第二质量等级与第二语言有关。该方法还包括基于第一质量等级和第二质量等级,确定针对语音数据的目标质量等级,目标质量等级指示语音数据的语音质量。
[0005]在本公开的第二方面中,提供了一种用于确定语音数据的质量的装置。该装置包括特征确定模块,被配置为确定所获取的语音数据的特征;质量等级获取模块,被配置为基于特征,获取针对语音数据的第一质量等级和第二质量等级,第一质量等级与第一语言有关,第二质量等级与第二语言有关;以及目标质量等级确定模块,被配置为基于第一质量等级和第二质量等级,确定针对语音数据的目标质量等级,目标质量等级指示语音数据的语音质量。
[0006]在本公开的第三方面中,提供了一种电子设备,包括至少一个处理器;以及存储装置,用于存储至少一个程序,当至少一个程序被至少一个处理器执行,使得至少一个处理器实现根据本公开的第一方面的方法。
[0007]在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
[0008]应当理解,该内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0009]通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
[0010]图1图示了本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图;
[0011]图2图示了根据本公开的实施例的用于确定语音数据的质量的过程200的流程图;
[0012]图3图示了根据本公开的实施例的用于生成语音数据的分数的示例300的示意图;
[0013]图4图示了根据本公开的实施例的用于训练解码器和语音表示模型的过程400的示意图;
[0014]图5图示了根据本公开的实施例的训练解码器和语音表示模型的示例500的示意图;
[0015]图6图示了根据本公开实施例的用于确定语音数据的质量的装置600的示意性框图;
[0016]图7图示了适于用来实施本公开内容的实施例的示例设备700的示意性框图。
[0017]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0018]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0019]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0020]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0021]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0022]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0023]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0024]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实
施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0025]如上所述,利用标注人员对语音数据的语音质量进行评分会导致高额的费用和过长的耗时。因此,提出了MOS自动打分系统,主要是利用机器对合成音频打分,替换掉标注人员的主观评价,从而达到节省时间和资源的目的。然而,利用机器进行MOS打分至少存在两个挑战,第一个挑战是数据稀疏的问题,用来训练MOS打分系统的数据并不是很多,这会限制打分系统的性能。第二个挑战则是针对跨领域合成音频(不同语种的合成音频)的打分,各种语种的合成音频在MOS打分系统中可能由于缺少对应语种的训练数据,打分系统无法给出一个准确的分数。
[0026]在一些传统方案中设计了自动打分系统。该系统利用提前训练的编码器进行MOS自动打分。该方案在相同领域(训练集和测试集的语种一致)的数据上可以取得较好的打分结果。
[0027]然而,该传统方案在跨领域任务中,存在着许多问题。例如,当不同领域的训练集分开使用时,跨领域的训练集非常稀少,会限制编码器的性能;当不同领域的训练集混合使用时,由于部分训练集和测试集的语种背景不同,系统无法很好的适配测试集的合成音频。从而导致MOS系统打分不准的问题。
[0028]另外,这些传统方案并没有考虑不同任务之间的联系,比如自动语音识别任务和MOS自动打分的关联。MOS打分数据稀疏,但自动语音识别的数据却是海量的。
[0029]至少为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定语音数据的质量的方法,包括:确定所获取的语音数据的特征;基于所述特征,获取针对所述语音数据的第一质量等级和第二质量等级,所述第一质量等级与第一语言有关,所述第二质量等级与第二语言有关;以及基于所述第一质量等级和所述第二质量等级,确定针对所述语音数据的目标质量等级,所述目标质量等级指示所述语音数据的语音质量。2.根据权利要求1所述的方法,获取所述第一质量等级和所述第二质量等级包括:通过将经训练的第一解码器应用于所述特征来获取所述第一质量等级;以及通过将经训练的第二解码器应用于所述特征来获取所述第二质量等级。3.根据权利要求2所述的方法,其中所述确定所获取的语音数据的特征包括:将经调整的语音表示模型应用于所述语音数据来获得所述特征。4.权利要求3所述的方法,还包括:获取微调的语音表示模型、第一解码器和第二解码器;获取第一组样本语音数据及对应的样本质量等级;确定针对提供者的第一组标识,所述提供者用于提供所述样本质量等级;通过利用所述第一组样本语音数据、对应的样本质量等级以及所述第一组标识训练所述微调的语音表示模型和所述第一解码器或所述第二解码器,来获得所述经调整的语音表示模型和所述经训练的第一解码器或所述经训练的第二解码器。5.根据权利要求2所述的方法,其中所述确定所获取的语音数据的特征包括:获取微调的语音表示模型;通过将所述微调的语音表示模型应用于所述语音数据来获得所述特征。6.根据权利要求5所述的方法,还包括:确定与第二组样本语音数据相对应的样本特征;确定针对提供者的第二组标识,所述提供者用于提供所述样本质量等级;利用所述样本特征、所述第二组标识和所述样本质量等级来训练所述第一解码器或所述第二解码器,来获得所述经训练的第一解码器或所述经训练的第二解码器。7.根据权利要求4或5所述的方法,其中获取所述微调的语音表示模型包括:获取预训练的语音表示模型;获取第三组样本语音数据和对应的样本文本;以及通过利用所述第三组样本语音数据和所述对应的样本文本训练所...

【专利技术属性】
技术研发人员:田霄海付凯奇高绍钧顾怡炜王凯李伟马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1