数据生成方法、电子设备及可读存储介质技术

技术编号：37055026 阅读：14 留言：0更新日期：2023-03-29 19:32

本公开提供了数据生成方法、电子设备及可读存储介质。本公开实施例的数据生成方法包括：根据第一语音的原始语音数据获取第一语音的第一语音特征，第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型；随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征；通过预训练的语音生成模型利用第一语音的第二语音特征生成第一语音的第三语音特征；根据第一语音的第三语音特征生成仿真语音数据，仿真语音数据用于训练第一语音模型。本公开实施例能够实现语音模型训练数据的多样性与低成本的扩增。模型训练数据的多样性与低成本的扩增。模型训练数据的多样性与低成本的扩增。

全部详细技术资料下载

【技术实现步骤摘要】
数据生成方法、电子设备及可读存储介质

[0001]本公开涉及一种数据生成方法、电子设备及可读存储介质。

技术介绍

[0002]诸如语音识别等语音技术相关的模型需要大量人工标注的语音数据用于模型训练，这些语音数据的标注过程往往费时费力，需要消耗大量的人力资源和资金，而真实场景往往是复杂多变的，有限的标注数据往往不能适用于所有的场景，因而现有的标注数据往往不能满足真实场景下的数据需求。因此，需要对语音数据进行扩增。使用数据增广的方式生成一些仿真数据，可以在提高模型性能的同时降低训练数据的标注成本。
[0003]目前，语音数据的扩增方法主要有：例如数据加噪加混响、数据频谱掩膜屏蔽等基于语音信号的数据增广方法，基于诸如Fastspeech等语音合成算法生成语音数据的方法等。然而，这些数据扩增方法普遍存在例如数据获取难度大、场景应用受限、数据固定单一等问题。

技术实现思路

[0004]为了解决上述技术问题中的至少一个，本公开提供了一种数据生成方法、电子设备及可读存储介质。
[0005]根据本公开的第一方面，提供了一种数据生成方法，包括：根据第一语音的原始语音数据获取第一语音的第一语音特征，所述第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型；随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征；通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征；根据第一语音的第三语音特征生成仿真语音数据，所述仿真语音数据用于训练所述第一语音模型。r/>[0006]一些实施方式中，所述根据第一语音的第三语音特征生成仿真语音数据，包括如下之一或多项：按照预定比例混合所述第三语音特征与所述第一语音特征，以获得所述仿真语音数据；选取第三语音特征中随机数量的特征帧替换所述第一语音特征中随机位置的特征帧，以获得所述仿真语音数据；直接使用所述第三语音特征作为所述仿真语音数据。
[0007]一些实施方式中，所述通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征，包括：通过语音生成模型基于第一语音的第二语音特征确定第一语音的第二语音特征中屏蔽帧的预测值；将第一语音的第二语音特征中屏蔽帧的取值更新为所述预测值以得到第一语音的第三语音特征。
[0008]一些实施方式中，所述第一语音的第二语音特征中屏蔽帧少于未屏蔽帧，且所述第一语音的第二语音特征中屏蔽帧的数量和位置是随机确定的。
[0009]一些实施方式中，所述随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征，包括：随机生成二值掩膜；利用所述二值掩膜屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征。
[0010]一些实施方式中，所述二值掩膜中零值帧少于非零帧，且所述二值掩膜中零值帧的数量与位置是随机确定的。
[0011]一些实施方式中，所述语音生成模型为基于Bert算法原理的端到端模型。
[0012]一些实施方式中，所述语音生成模型的参数根据第一损失值确定，第一损失值根据第二语音的第二语音特征中屏蔽帧的预测值和所述屏蔽帧在第一语音特征中的取值确定，所述第二语音的第二语音特征中屏蔽帧的预测值通过所述语音生成模型得到。
[0013]一些实施方式中，所述第一语音模型为语音识别模型。
[0014]根据本公开的第二方面，提供了一种数据生成装置，包括：特征提取单元，用于根据第一语音的原始语音数据获取第一语音的第一语音特征，所述第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型；随机屏蔽单元，用于随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征；特征仿真单元，用于通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征；数据仿真单元，用于根据第一语音的第三语音特征生成仿真语音数据，所述仿真语音数据用于训练所述第一语音模型。
[0015]根据本公开的第三方面，提供了一种电子设备，包括：存储器，所述存储器存储执行指令；以及处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如上任一项所述的数据生成方法。
[0016]根据本公开的第四方面，提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的数据生成方法。
[0017]根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的数据生成方法。
[0018]本公开实施例能够实现语音模型训练数据的低成本、多样性的扩增。
附图说明
[0019]附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。
[0020]图1是根据本公开的一个实施方式的数据生成方法的流程示意图。
[0021]图2是根据本公开的一个实施方式中语音生成模型的训练过程示例图。
[0022]图3是本公开的一个实施方式的采用处理系统的硬件实现方式的数据生成装置的结构示意框图。
具体实施方式
[0023]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。
[0024]需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0025]除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0026]在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。
[0027]当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据生成方法，其特征在于，包括：根据第一语音的原始语音数据获取第一语音的第一语音特征，所述第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型；随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征；通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征；根据第一语音的第三语音特征生成仿真语音数据，所述仿真语音数据用于训练所述第一语音模型。2.根据权利要求1所述的数据生成方法，其特征在于，所述根据第一语音的第三语音特征生成仿真语音数据，包括：按照预定比例混合所述第三语音特征与所述第一语音特征，以获得所述仿真语音数据；或者选取第三语音特征中随机数量的特征帧替换所述第一语音特征中随机位置的特征帧，以获得所述仿真语音数据；或者直接使用所述第三语音特征作为所述仿真语音数据。3.根据权利要求1所述的数据生成方法，其特征在于，所述通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征，包括：通过语音生成模型基于第一语音的第二语音特征确定第一语音的第二语音特征中屏蔽帧的预测值；将第一语音的第二语音特征中屏蔽帧的取值更新为所述预测值以得到第一语音的第三语音特征。4.根据权利要求1或3所述的数据生成方法，其特征在于，所述第一语音的第二语音特征中屏蔽帧少于未屏蔽帧，且所述第一语音的第二语音特征中屏蔽帧的...

【专利技术属性】
技术研发人员：孙建伟，邹伟，李先刚，
申请(专利权)人：贝壳找房北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人