一种语音数据的处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38348327 阅读:18 留言:0更新日期:2023-08-02 09:28
本公开提供了一种语音数据的处理方法、装置、电子设备及存储介质。包括:获取待识别的目标语音数据;检测目标语音数据得到目标特征序列以及目标时间序列,目标特征序列包括目标语音数据中各个音频帧对应音素的音素描述信息,目标时间序列包括目标语音数据中各个音素对应的时间信息;基于目标特征序列中的音素描述信息以及目标时间序列中的时间信息进行线性计算,得到目标语音数据对应的目标流利度。本公开通过提取语音数据的目标特征序列以及目标时间序列,通过目标特征序列中的音素描述信息以及目标时间序列中的时间信息能够准确的表达出细粒度的声学特征,为语音数据的流利度检测提供了可靠的依据,提高了流利度检测结果的可靠性。的可靠性。的可靠性。

【技术实现步骤摘要】
一种语音数据的处理方法、装置、电子设备及存储介质


[0001]本公开涉及语音处理
,尤其涉及一种语音数据的处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,语音识别技术应用日益增加。例如:对于语音数据的合成,检测流利度等等。目前通过语言数据检测流利度的方法较为单一,无法有效检测出说话人细粒度的声学特征,导致流利度检测结果的准确性较低。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种语音数据的处理方法、装置、电子设备及存储介质。
[0004]根据本公开实施例的一个方面,提供了一种语音数据的处理方法,包括:
[0005]获取待识别的目标语音数据;
[0006]检测所述目标语音数据得到目标特征序列以及目标时间序列,其中,所述目标特征序列包括所述目标语音数据中各个音频帧对应音素的音素描述信息,所述目标时间序列包括所述目标语音数据中各个音素对应的时间信息;
[0007]基于所述目标特征序列中的音素描述信息以及所述目标时间序列中的时间信息进行线性计算,得到所述目标语音数据对应的目标流利度。
[0008]根据本公开实施例的另一方面,还提供了一种语音数据的处理装置,包括:
[0009]获取模块,用于获取待识别的目标语音数据;
[0010]检测模块,用于检测所述目标语音数据得到目标特征序列以及目标时间序列,其中,所述目标特征序列包括所述目标语音数据中各个音频帧对应音素的音素描述信息,所述目标时间序列包括所述目标语音数据中各个音素对应的时间信息;
[0011]预测模块,用于基于所述目标特征序列中的音素描述信息以及所述目标时间序列中的时间信息进行线性计算,得到所述目标语音数据对应的目标流利度。
[0012]根据本公开实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
[0013]根据本公开实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
[0014]本公开实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
[0015]本公开实施例提供的上述技术方案具有如下优点:本公开实施例提供的方法通过提取语音数据的目标特征序列以及目标时间序列,通过目标特征序列中的音素描述信息以
及目标时间序列中的时间信息能够准确的表达出细粒度的声学特征,为语音数据的流利度检测提供了可靠的依据,提高了流利度检测结果的可靠性。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0017]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本公开实施例提供的语音数据的处理方法的流程图;
[0019]图2为本公开实施例提供的特征序列和时间序列的示意图;
[0020]图3为本公开实施例提供的语音数据的处理方法的流程图;
[0021]图4为本公开实施例提供的掩码后的特征序列和时间序列的示意图;
[0022]图5为本公开实施例提供的预设神经网络模型的结构示意图;
[0023]图6为本公开实施例提供的语音数据的处理装置的框图;
[0024]图7为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0025]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0026]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0027]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0028]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0029]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0030]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0031]需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一
个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0032]本公开实施例提供了一种语音数据的处理方法、装置、电子设备及存储介质。本公开实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
[0033]根据本公开实施例的一方面,提供了一种语音数据的处理方法的方法实施例。图1为本公开实施例提供的一种语音数据的处理方法的流程图,如图1所示,该方法包括:
[0034]步骤S11,获取待识别的目标语音数据。
[0035]本公开实施例提供的方法应用于能够进行语音处理的智能设备,语音处理可以是:语音录制,语音识别,语音合成,流利度检测等等。智能设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据的处理方法,其特征在于,包括:获取待识别的目标语音数据;检测所述目标语音数据得到目标特征序列以及目标时间序列,其中,所述目标特征序列包括所述目标语音数据中各个音频帧对应音素的音素描述信息,所述目标时间序列包括所述目标语音数据中各个音素对应的时间信息;基于所述目标特征序列中的音素描述信息以及所述目标时间序列中的时间信息进行线性计算,得到所述目标语音数据对应的目标流利度。2.根据权利要求1所述的方法,其特征在于,所述目标语音数据包括多个音频帧;所述检测所述目标语音数据得到目标特征序列以及目标时间序列,包括:检测所述目标语音数据得到各个所述音频帧对应的音素以及每个音素对应的音素描述信息;获取所述目标语音数据对应的目标文本;将所述目标文本与所述目标语音数据中的音频帧对齐,得到各个音素对应的时间信息,其中,所述时间信息包括音素时长以及音素标识;基于所述目标语音数据中音素对应的音素描述信息构建所述目标特征序列,并基于所述音素对应的音素时长以及音素标识构建所述目标时间序列。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标特征序列中的音素描述信息以及所述目标时间序列中的时间信息进行线性计算,得到所述目标语音数据对应的目标流利度,包括:获取预先训练好的流利度预测模型;将所述音素描述信息,所述音素时长以及所述音素标识输入所述流利度预测模型,以使所述流利度预测模型基于所述音素描述信息,所述音素标识以及所述音素时长进行线性计算得到所述目标流利度。4.根据权利要求3所述的方法,其特征在于,所述流利度预测模型的训练方法包括:获取语音数据样本以及所述语音数据样本对应的流利度标签;检测所述语音数据样本得到特征序列以及时间序列,其中,所述特征序列包括所述语音数据样本中各个音频帧对应音素的音素描述信息,所述目标时间序列包括所述语音数据样本中各个音素对应的时间信息;利用所述特征序列中音素描述信息,所述时间序列中的时间信息以及所述流利度标签训练预设神经网络,得到预测流利度;基于所述预测流利度与所述流利度标签,调整所述预设神经网络的模型参数。5.根据权利要求4所述的方法,其特征在于,所述利用所述特征序列中音素描述信息,所述时间序列中的时间信息以及所述流利度标签训练预设神经网络,得到预测流利度,包括:确定所述特征序列中待进行掩码的目标音素描述信息,并从所述时间序列中获取所述目标音素描述信息对应的目标时间信息;分别对所述特征序列中的目标音素描述信息以及所述时间序列中的目标时间信息进行掩码,得到掩码特征序列以...

【专利技术属性】
技术研发人员:付凯奇田霄海李伟马泽君
申请(专利权)人:脸萌有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1