样本确定方法、装置及电子设备制造方法及图纸

技术编号：35482675 阅读：15 留言：0更新日期：2022-11-05 16:34

本公开提供一种样本确定方法、装置及电子设备，所述方法包括：对第一语音进行语音分割，得到所述第一语音对应的第一语音段和第一非语音段；基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值，所述第一指标值用于指示所述第一语音的语音干净程度；基于所述第一指标值与预设指标值确定目标调整参数；基于所述目标调整参数对所述第一语音进行调整，将调整后的第一语音确定为用于模型训练的训练样本。本公开实施例能够提高模型训练的效果。训练的效果。训练的效果。

全部详细技术资料下载

【技术实现步骤摘要】
样本确定方法、装置及电子设备

[0001]本专利技术涉及人工智能
，尤其涉及一种样本确定方法、装置及电子设备。

技术介绍

[0002]目前针对语音的模型训练方法中，通常使用的是监督训练的方法，而监督训练中干净数据的选择对模型的效果有着十分重要的作用，可以直接影响模型的效果。干净数据是指理论上没有噪声的语音数据。目前，通常在安静环境下录制语音获取干净数据。然而，由于无法保证绝对安静的环境，在安静环境下录制的语音可能会包括较大的噪声，导致模型训练的效果较差。

技术实现思路

[0003]本公开实施例提供一种样本确定方法、装置及电子设备，以解决现有技术中模型训练的效果较差的问题。
[0004]为了解决上述技术问题，本专利技术是这样实现的：
[0005]第一方面，本公开实施例提供了一种样本确定方法，所述方法包括：
[0006]对第一语音进行语音分割，得到所述第一语音对应的第一语音段和第一非语音段；
[0007]基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值，所述第一指标值用于指示所述第一语音的语音干净程度；
[0008]基于所述第一指标值与预设指标值确定目标调整参数；
[0009]基于所述目标调整参数对所述第一语音进行调整，将调整后的第一语音确定为用于模型训练的训练样本。
[0010]第二方面，本公开实施例提供了一种样本确定装置，所述装置包括：
[0011]分割模块，用于对第一语音进行语音分割，得到所述第一语音对应的第一...

【技术保护点】

【技术特征摘要】
1.一种样本确定方法，其特征在于，所述方法包括：对第一语音进行语音分割，得到所述第一语音对应的第一语音段和第一非语音段；基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值，所述第一指标值用于指示所述第一语音的语音干净程度；基于所述第一指标值与预设指标值确定目标调整参数；基于所述目标调整参数对所述第一语音进行调整，将调整后的第一语音确定为用于模型训练的训练样本。2.根据权利要求1所述的方法，其特征在于，所述第一指标值与如下至少一项正相关：第一比值，第二比值，第三比值，第四比值；其中，所述第一比值为第二语音段的能量均值与第三语音段的能量均值的比值，所述第二语音段基于所述第一语音段进行低通滤波处理后获得，所述第三语音段基于所述第一语音段进行高通滤波处理后获得；所述第二比值为第二非语音段的能量均值与第三非语音段的能量均值的比值，所述第二非语音段基于所述第一非语音段进行低通滤波处理后获得，所述第三非语音段基于所述第一非语音段进行高通滤波处理后获得；所述第三比值为第一数据点的能量均值与第二数据点的能量均值的比值，所述第一数据点为所述第一语音段的基频对应的数据点及所述基频的倍频对应的数据点，所述第二数据点为所述第一语音段中除所述第一数据点外的数据点；所述第四比值为所述第一语音段的能量均值与所述第一非语音段的能量均值的比值。3.根据权利要求2所述的方法，其特征在于，所述基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值，包括：分别获取第一乘积、第二乘积、第三乘积及第四乘积，所述第一乘积为第一权重系数与所述第一比值的乘积，所述第二乘积为第二权重系数与所述第二比值的乘积，所述第三乘积为第三权重系数与所述第三比值的乘积，所述第四乘积为第四权重系数与所述第四比值的乘积；基于所述第一乘积、第二乘积、第三乘积及第四乘积确定所述第一语音的第一指标值。4.根据权利要求2或3所述的方法，其特征在于，所述基于所述目标调整参数对所述第一语音进行调整，包括：基于所述目标调整参数及所述第二语音段的能量均值确定第一调整参数，基于所述第一调整参数对所述第二语音段对应的数据点中每个数据点的幅值进行调整；和/或基于所述目标调整参数及所述第三语音段的能量均值确定第二调整参数，基于所述第二调整参数对所述第三语音段对应的数据点中每个数据点的幅值...

【专利技术属性】
技术研发人员：李良斌，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人