样本确定方法、装置及电子设备制造方法及图纸

技术编号:35482675 阅读:15 留言:0更新日期:2022-11-05 16:34
本公开提供一种样本确定方法、装置及电子设备,所述方法包括:对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;基于所述第一指标值与预设指标值确定目标调整参数;基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。本公开实施例能够提高模型训练的效果。训练的效果。训练的效果。

【技术实现步骤摘要】
样本确定方法、装置及电子设备


[0001]本专利技术涉及人工智能
,尤其涉及一种样本确定方法、装置及电子设备。

技术介绍

[0002]目前针对语音的模型训练方法中,通常使用的是监督训练的方法,而监督训练中干净数据的选择对模型的效果有着十分重要的作用,可以直接影响模型的效果。干净数据是指理论上没有噪声的语音数据。目前,通常在安静环境下录制语音获取干净数据。然而,由于无法保证绝对安静的环境,在安静环境下录制的语音可能会包括较大的噪声,导致模型训练的效果较差。

技术实现思路

[0003]本公开实施例提供一种样本确定方法、装置及电子设备,以解决现有技术中模型训练的效果较差的问题。
[0004]为了解决上述技术问题,本专利技术是这样实现的:
[0005]第一方面,本公开实施例提供了一种样本确定方法,所述方法包括:
[0006]对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;
[0007]基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;
[0008]基于所述第一指标值与预设指标值确定目标调整参数;
[0009]基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。
[0010]第二方面,本公开实施例提供了一种样本确定装置,所述装置包括:
[0011]分割模块,用于对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;
[0012]第一确定模块,用于基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;
[0013]第二确定模块,用于基于所述第一指标值与预设指标值确定目标调整参数;
[0014]第三确定模块,用于基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。
[0015]第三方面,本公开实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的样本确定方法中的步骤。
[0016]第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的样本确定方法中的步骤。
[0017]在本公开实施例中,对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;基于所述第一指标值与预设指标值确定目标调整参数;基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。这样,通过第一指标值与预设指标值对所述第一语音进行调整,能够降低第一语音中的噪声,从而能够提高模型训练的效果。
附图说明
[0018]为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本公开实施例提供的一种语音评估方法的流程图;
[0020]图2是本公开实施例提供的一种语音评估装置的结构示意图;
[0021]图3是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0022]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]在本公开实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。
[0024]参见图1,图1是本公开实施例提供的一种样本确定方法的流程图,如图1所示,包括以下步骤:
[0025]步骤101、对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段。
[0026]其中,第一语音可以是在安静环境下录制的语音,或者可以是通过其他方式获得的噪声较少的语音。第一语音对应的第一语音段可以包括对第一语音进行语音分割得到的至少一个语音段。第一语音对应的第一非语音段可以包括对第一语音进行语音分割得到的至少一个非语音段。
[0027]一种实施方式中,第一语音对应的第一语音段可以包括对第一语音进行语音分割得到的全部语音段。第一语音对应的第一非语音段可以包括对第一语音进行语音分割得到的全部非语音段。
[0028]一种实施方式中,可以确定第一语音的帧长及帧移等,对第一语音进行分帧,在分帧后,可以采用语音活动检测(Voice Activity Detection,VAD)算法对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段。
[0029]步骤102、基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度。
[0030]其中,所述第一指标值可以与如下至少一项正相关:第一比值,第二比值,第三比值,第四比值。
[0031]一种实施方式中,所述第一比值为第二语音段的能量均值与第三语音段的能量均值的比值,所述第二语音段基于所述第一语音段进行低通滤波处理后获得,所述第三语音段基于所述第一语音段进行高通滤波处理后获得;所述第二比值为第二非语音段的能量均值与第三非语音段的能量均值的比值,所述第二非语音段基于所述第一非语音段进行低通滤波处理后获得,所述第三非语音段基于所述第一非语音段进行高通滤波处理后获得;所述第三比值为第一数据点的能量均值与第二数据点的能量均值的比值,所述第一数据点为所述第一语音段的基频对应的数据点及所述基频的倍频对应的数据点,所述第二数据点为所述第一语音段中除所述第一数据点外的数据点;所述第四比值为所述第一语音段的能量均值与所述第一非语音段的能量均值的比值。
[0032]另一种实施方式中,所述第一比值为第二语音段的能量值与第三语音段的能量值的比值;所述第二比值为第二非语音段的能量值与第三非语音段的能量值的比值;所述第三比值为第一数据点的能量值与第二数据点的能量值的比值;所述第四比值为所述第一语音段的能量值与所述第一非语音段的能量值的比值。
[0033]步骤103、基于所述第一指标值与预设指标值确定目标调整参数。
[0034]其中,所述目标调整参数可以为预设指标值与第一指标值的比值;或者所述目标调整参数可以为第一指标值与预设指标值的比值;或者所述目标调整参数可以为预设指标值与第一指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本确定方法,其特征在于,所述方法包括:对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;基于所述第一指标值与预设指标值确定目标调整参数;基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。2.根据权利要求1所述的方法,其特征在于,所述第一指标值与如下至少一项正相关:第一比值,第二比值,第三比值,第四比值;其中,所述第一比值为第二语音段的能量均值与第三语音段的能量均值的比值,所述第二语音段基于所述第一语音段进行低通滤波处理后获得,所述第三语音段基于所述第一语音段进行高通滤波处理后获得;所述第二比值为第二非语音段的能量均值与第三非语音段的能量均值的比值,所述第二非语音段基于所述第一非语音段进行低通滤波处理后获得,所述第三非语音段基于所述第一非语音段进行高通滤波处理后获得;所述第三比值为第一数据点的能量均值与第二数据点的能量均值的比值,所述第一数据点为所述第一语音段的基频对应的数据点及所述基频的倍频对应的数据点,所述第二数据点为所述第一语音段中除所述第一数据点外的数据点;所述第四比值为所述第一语音段的能量均值与所述第一非语音段的能量均值的比值。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,包括:分别获取第一乘积、第二乘积、第三乘积及第四乘积,所述第一乘积为第一权重系数与所述第一比值的乘积,所述第二乘积为第二权重系数与所述第二比值的乘积,所述第三乘积为第三权重系数与所述第三比值的乘积,所述第四乘积为第四权重系数与所述第四比值的乘积;基于所述第一乘积、第二乘积、第三乘积及第四乘积确定所述第一语音的第一指标值。4.根据权利要求2或3所述的方法,其特征在于,所述基于所述目标调整参数对所述第一语音进行调整,包括:基于所述目标调整参数及所述第二语音段的能量均值确定第一调整参数,基于所述第一调整参数对所述第二语音段对应的数据点中每个数据点的幅值进行调整;和/或基于所述目标调整参数及所述第三语音段的能量均值确定第二调整参数,基于所述第二调整参数对所述第三语音段对应的数据点中每个数据点的幅值...

【专利技术属性】
技术研发人员:李良斌
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1