语音识别模型处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38153416 阅读:7 留言:0更新日期:2023-07-13 09:19
本申请实施例属于人工智能领域,涉及一种语音识别模型处理方法、装置、计算机设备及存储介质,方法包括:获取训练文本;将训练文本输入语音合成模型,并通过语音合成模型中的声码器获取训练文本的第一特征;通过变分自编码器对第一特征进行参数调整,得到第二特征;通过声码器对第二特征进行语音合成,得到第一合成语音;对第一合成语音进行语音增强处理,得到第二合成语音;根据第二合成语音和训练文本对初始语音识别模型进行训练,得到语音识别模型;获取待识别语音,并通过语音识别模型对待识别语音进行语音识别,得到语音识别结果。此外,本申请还涉及区块链技术,训练文本可存储于区块链中

【技术实现步骤摘要】
语音识别模型处理方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种语音识别模型处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音识别是人工智能领域中重要的研究方向,具有广泛的实际应用,例如,在智能家居、虚拟助手、智能客服等应用场景中,语音识别都发挥着重要作用,为人们的日常生活提供了极大便利。语音识别识别往往连接下游的应用,语音识别结果可以用于触发指令、意图识别等。因此,语音识别的准确性非常重要。
[0003]语音识别中的待识别语音通常繁杂多样,例如掺杂各种方言、口语、噪声等。为了提高语音识别模型的准确性,通常是准备大量的待识别语音,这需要录制大量的覆盖各种场景的语音并进行标注,耗费大量时间,使得语音识别模型的数据处理效率较低。

技术实现思路

[0004]本申请实施例的目的在于提出一种语音识别模型处理方法、装置、计算机设备及存储介质,以解决语音识别模型数据处理效率较低的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种语音识别模型处理方法,采用了如下所述的技术方案:
[0006]获取训练文本;
[0007]将所述训练文本输入语音合成模型,并通过所述语音合成模型中的声码器获取所述训练文本的第一特征;
[0008]通过变分自编码器对所述第一特征进行参数调整,得到第二特征;
[0009]通过所述声码器对所述第二特征进行语音合成,得到第一合成语音;
[0010]对所述第一合成语音进行语音增强处理,得到第二合成语音;
[0011]根据所述第二合成语音和所述训练文本对初始语音识别模型进行训练,得到语音识别模型;
[0012]获取待识别语音,并通过所述语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。
[0013]为了解决上述技术问题,本申请实施例还提供一种语音识别模型处理装置,采用了如下所述的技术方案:
[0014]文本获取模块,用于获取训练文本;
[0015]特征获取模块,用于将所述训练文本输入语音合成模型,并通过所述语音合成模型中的声码器获取所述训练文本的第一特征;
[0016]特征调整模块,用于通过变分自编码器对所述第一特征进行参数调整,得到第二特征;
[0017]语音合成模块,用于通过所述声码器对所述第二特征进行语音合成,得到第一合
成语音;
[0018]语音增强模块,用于对所述第一合成语音进行语音增强处理,得到第二合成语音;
[0019]模型训练模块,用于根据所述第二合成语音和所述训练文本对初始语音识别模型进行训练,得到语音识别模型;
[0020]语音识别模块,用于获取待识别语音,并通过所述语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。
[0021]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0022]获取训练文本;
[0023]将所述训练文本输入语音合成模型,并通过所述语音合成模型中的声码器获取所述训练文本的第一特征;
[0024]通过变分自编码器对所述第一特征进行参数调整,得到第二特征;
[0025]通过所述声码器对所述第二特征进行语音合成,得到第一合成语音;
[0026]对所述第一合成语音进行语音增强处理,得到第二合成语音;
[0027]根据所述第二合成语音和所述训练文本对初始语音识别模型进行训练,得到语音识别模型;
[0028]获取待识别语音,并通过所述语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。
[0029]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
[0030]获取训练文本;
[0031]将所述训练文本输入语音合成模型,并通过所述语音合成模型中的声码器获取所述训练文本的第一特征;
[0032]通过变分自编码器对所述第一特征进行参数调整,得到第二特征;
[0033]通过所述声码器对所述第二特征进行语音合成,得到第一合成语音;
[0034]对所述第一合成语音进行语音增强处理,得到第二合成语音;
[0035]根据所述第二合成语音和所述训练文本对初始语音识别模型进行训练,得到语音识别模型;
[0036]获取待识别语音,并通过所述语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。
[0037]与现有技术相比,本申请实施例主要有以下有益效果:获取训练文本后,将训练文本输入语音合成模型,语音合成模型的声码器中嵌入变分自编码器,变分自编码器在重构输入的第一特征时,对第一特征进行调整得到多组第二特征,从而通过声码器根据第二特征合成大量语义相同的第一合成语音;再对第一合成语音进行多种形式的语音增强处理,得到更多更加真实的第二合成语音;根据第二合成语音与训练文本训练初始语义识别模型,从而提高了语义识别模型的鲁棒性和泛化能力;本申请可以快速地自动合成大量更加真实的语音,缩短了模型训练时间,提高了语义识别模型的识别效率以及识别准确性。
附图说明
[0038]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本申请可以应用于其中的示例性系统架构图;
[0040]图2是根据本申请的语音识别模型处理方法的一个实施例的流程图;
[0041]图3是根据本申请的语音识别模型处理装置的一个实施例的结构示意图;
[0042]图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
[0043]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0044]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0045]为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0046]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型处理方法,其特征在于,包括下述步骤:获取训练文本;将所述训练文本输入语音合成模型,并通过所述语音合成模型中的声码器获取所述训练文本的第一特征;通过变分自编码器对所述第一特征进行参数调整,得到第二特征;通过所述声码器对所述第二特征进行语音合成,得到第一合成语音;对所述第一合成语音进行语音增强处理,得到第二合成语音;根据所述第二合成语音和所述训练文本对初始语音识别模型进行训练,得到语音识别模型;获取待识别语音,并通过所述语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。2.根据权利要求1所述的语音识别模型处理方法,其特征在于,所述获取训练文本的步骤包括:获取初始语音识别模型对第一语音的第一识别结果及其对应的识别反馈信息;根据所述第一识别结果和所述识别反馈信息生成训练文本。3.根据权利要求2所述的语音识别模型处理方法,其特征在于,所述根据所述第一识别结果和所述识别反馈信息生成训练文本的步骤包括:根据所述第一识别结果和所述识别反馈信息,在所述第一语音中确定训练语音;根据所述训练语音及其对应的识别反馈信息生成初始训练文本;生成所述初始训练文本的相似文本;将所述初始训练文本以及所述相似文本确定为训练文本。4.根据权利要求1所述的语音识别模型处理方法,其特征在于,所述将所述训练文本输入语音合成模型,并通过所述语音合成模型中的声码器获取所述训练文本的第一特征的步骤包括:将所述训练文本输入语音合成模型,以通过所述语音合成模型中的文本处理子模型对所述训练文本进行文本分析,得到文本语音特征;将所述文本语音特征输入所述语音合成模型中的声学子模型,得到文本声学特征;将所述文本声学特征输入所述语音合成模型中的声码器,以通过所述声码器获取所述训练文本的第一特征。5.根据权利要求1所述的语音识别模型处理方法,其特征在于,所述通过变分自编码器对所述第一特征进行参数调整,得到第二特征的步骤包括:将所述第一特征输入所述声码器中的变分自编码器,以计算所述第一特征的均值特征和方差特征;对所述均值特征进行微调,得到已调整均值特征;根据所述已调整均值特征和所述方差特征对所述第一特...

【专利技术属性】
技术研发人员:宫帅魏韬马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1