模型训练方法、语音识别方法、装置、服务器及存储介质制造方法及图纸

技术编号:29679411 阅读:21 留言:0更新日期:2021-08-13 22:02
本申请涉及人工智能中的模型构建,提供一种模型训练方法、语音识别方法、装置、服务器及存储介质,该方法包括:对语音数据进行第一信号处理得到第一语音数据,对语音数据进行第二信号处理得到第二语音数据;将第一语音数据和第二语音数据输入特征提取模型,以提取第一语音数据的第一特征向量,以及第二语音数据的第二特征向量;根据第一特征向量和第二特征向量,计算第一语音数据与第二语音数据之间的互信息;根据第一语音数据与第二语音数据之间的互信息,更新特征提取模型的模型参数,直至特征提取模型收敛;将收敛后的特征提取模型和训练好的语音识别模型进行融合并微调,以获取目标语音识别模型。本申请可提高语音识别模型的鲁棒性。

【技术实现步骤摘要】
模型训练方法、语音识别方法、装置、服务器及存储介质
本申请涉及模型构建的
,尤其涉及一种模型训练方法、语音识别方法、装置、服务器及存储介质。
技术介绍
随着新媒体行业的不断发展,语音数据的信道逐渐多样化,存在不同的带宽和编码格式,比如语音数据为8k或者16k采样率的录音数据,或者为ulaw,Alaw,amr等编码格式。一些情况下,在语音数据的传输过程中,还会对语音数据进行压缩等处理。这些都给语音识别带来了困难和挑战。目前的语音识别模型只能识别单一信道的语音数据,对于存在不同信道的语音数据的应用场景,需要训练多个分别与各信道的语音数据相匹配的语音识别模型,语音识别模型的鲁棒性较差,且因不同语音识别模型的训练数据无法共享,导致各个语音识别模型之间准确率相差较大,或者需要更多的训练数据,存在较大的弊端。
技术实现思路
本申请的主要目的在于提供一种模型训练方法、语音识别方法、装置、服务器及存储介质,旨在提高语音识别模型的鲁棒性和扩展性,从而提高语音识别的灵活性和准确性。第一方面,本申请提供一种模型训练方法,应用于服务器,所述服务器存储有特征提取模型和训练好的语音识别模型,所述方法包括:获取作为训练样本的语音数据,并对所述语音数据进行第一信号处理得到第一语音数据,对所述语音数据进行第二信号处理得到第二语音数据;将所述第一语音数据和第二语音数据输入所述特征提取模型,以提取所述第一语音数据的第一特征向量,以及所述第二语音数据的第二特征向量;根据所述第一特征向量和所述第二特征向量,计算所述第一语音数据与第二语音数据之间的互信息;根据所述第一语音数据与第二语音数据之间的互信息,确定所述特征提取模型是否收敛;若所述特征提取模型未收敛,则更新所述特征提取模型的模型参数,并通过所述训练样本继续训练更新模型参数后的所述特征提取模型,直至所述特征提取模型收敛;将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合,得到融合模型;微调所述融合模型,以获取目标语音识别模型。第二方面,本申请还提供一种语音识别方法,包括:获取待识别的目标语音数据;将所述目标语音数据输入目标语音识别模型,得到所述目标语音数据对应的文本信息;其中,所述目标语音识别模型是根据如上所述的模型训练方法进行训练得到的。第三方面,本申请还提供一种模型训练装置,存储有特征提取模型和训练好的语音识别模型,所述模型训练装置包括:获取模块,用于获取作为训练样本的语音数据,并对所述语音数据进行第一信号处理得到第一语音数据,对所述语音数据进行第二信号处理得到第二语音数据;提取模块,用于将所述第一语音数据和第二语音数据输入至所述特征提取模型,以提取所述第一语音数据的第一特征向量,以及所述第二语音数据的第二特征向量;计算模块,用于根据所述第一特征向量和所述第二特征向量,计算所述第一语音数据与第二语音数据之间的互信息;确定模块,用于根据所述第一语音数据与第二语音数据之间的互信息,确定所述特征提取模型是否收敛;更新模块,用于若所述特征提取模型未收敛,则更新所述特征提取模型的模型参数,并通过所述训练样本继续训练更新模型参数后的所述特征提取模型,直至所述特征提取模型收敛;融合模块,用于将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合,得到融合模型;微调模块,用于微调所述融合模型,以获取目标语音识别模型。第四方面,本申请还提供一种服务器,所述服务器存储有特征提取模型和训练好的语音识别模型,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的模型训练方法或者语音识别方法的步骤。第五方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的模型训练方法或者语音识别方法的步骤。本申请提供一种模型训练方法、语音识别方法、装置、服务器及存储介质,本申请通过获取作为训练样本的语音数据,并对语音数据进行第一信号处理得到第一语音数据,对语音数据进行第二信号处理得到第二语音数据;将第一语音数据和第二语音数据输入特征提取模型,以提取第一语音数据的第一特征向量,以及第二语音数据的第二特征向量;根据第一特征向量和第二特征向量,计算第一语音数据与第二语音数据之间的互信息;根据第一语音数据与第二语音数据之间的互信息,确定特征提取模型是否收敛;若特征提取模型未收敛,则更新特征提取模型的模型参数,并通过训练样本继续训练更新模型参数后的特征提取模型,直至特征提取模型收敛;将收敛后的特征提取模型和训练好的语音识别模型进行融合,得到融合模型;微调融合模型,以获取目标语音识别模型。极大提高了目标语音识别模型的鲁棒性和扩展性,能够应用于不同应用场景,从而提高语音识别的灵活性和准确性。附图说明为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种模型训练方法的步骤流程示意图;图2为输出第一特征向量和第二特征向量的示意图;图3为本申请实施例提供的一种语音识别方法的步骤流程示意图;图4为本申请实施例提供的一种模型训练装置的示意性框图;图5为本申请实施例提供的一种语音识别装置的示意性框图;图6为本申请实施例提供的一种服务器的结构示意性框图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。本申请实施例提供一种模型训练方法、语音识别方法、装置、服务器及存储介质。其中,该模型训练方法可应用于服务器中,该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。服务器存储有未训练的特征提取模型和训练好的语音识别模型。在一些实施例中,服务器存储有未训练的特征提取模型和未训练的语音识别模型,通过作为训练样本的多个语音数据对未训练的语音识别模型进行迭代训练,得到训练好的语音识别模型,本申请不做具体限定。下面结合附图,对本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,应用于服务器,所述服务器存储有特征提取模型和训练好的语音识别模型,所述方法包括:/n获取作为训练样本的语音数据,并对所述语音数据进行第一信号处理得到第一语音数据,对所述语音数据进行第二信号处理得到第二语音数据;/n将所述第一语音数据和第二语音数据输入所述特征提取模型,以提取所述第一语音数据的第一特征向量,以及所述第二语音数据的第二特征向量;/n根据所述第一特征向量和所述第二特征向量,计算所述第一语音数据与第二语音数据之间的互信息;/n根据所述第一语音数据与第二语音数据之间的互信息,确定所述特征提取模型是否收敛;/n若所述特征提取模型未收敛,则更新所述特征提取模型的模型参数,并通过所述训练样本继续训练更新模型参数后的所述特征提取模型,直至所述特征提取模型收敛;/n将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合,得到融合模型;/n微调所述融合模型,以获取目标语音识别模型。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,应用于服务器,所述服务器存储有特征提取模型和训练好的语音识别模型,所述方法包括:
获取作为训练样本的语音数据,并对所述语音数据进行第一信号处理得到第一语音数据,对所述语音数据进行第二信号处理得到第二语音数据;
将所述第一语音数据和第二语音数据输入所述特征提取模型,以提取所述第一语音数据的第一特征向量,以及所述第二语音数据的第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算所述第一语音数据与第二语音数据之间的互信息;
根据所述第一语音数据与第二语音数据之间的互信息,确定所述特征提取模型是否收敛;
若所述特征提取模型未收敛,则更新所述特征提取模型的模型参数,并通过所述训练样本继续训练更新模型参数后的所述特征提取模型,直至所述特征提取模型收敛;
将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合,得到融合模型;
微调所述融合模型,以获取目标语音识别模型。


2.如权利要求1所述的模型训练方法,其特征在于,所述第一信号处理包括采样率调整、编码格式调整、压缩和/或解压缩,所述第二信号处理包括采样率调整、编码格式调整、压缩和/或解压缩,所述第一信号处理不等同于所述第二信号处理。


3.如权利要求1所述的模型训练方法,其特征在于,所述根据所述第一特征向量和所述第二特征向量,计算所述第一语音数据与第二语音数据之间的互信息,包括:
从所述第一特征向量中确定所述语音数据各帧对应的特征信息,得到多个第一帧特征信息;
从所述第二特征向量中确定所述语音数据各帧对应的特征信息,得到多个第二帧特征信息;
根据所述语音数据各帧各自对应的所述第一帧特征信息和所述第二帧特征信息,计算所述第一语音数据与第二语音数据之间的互信息。


4.如权利要求1-3中任一项所述的模型训练方法,其特征在于,所述根据所述第一语音数据与第二语音数据之间的互信息,确定所述特征提取模型是否收敛,包括:
根据所述第一语音数据与第二语音数据之间的互信息,计算所述特征提取模型的损失值;
若所述特征提取模型的损失值小于或等于预设损失值,则确定所述特征提取模型收敛;
若所述特征提取模型的损失值大于预设损失值,则确定所述特征提取模型未收敛。


5.如权利要求4所述的模型训练方法,其特征在于,所述根据所述第一语音数据与第二语音数据之间的互信息,计算所述特征提取模型的损失值,包括:
获取表示互信息损失的第一权重,并获取表示分类损失的第二权重;
通过所述第一语音数据与第二语音数据之间的互信息与所述第一权重,确定所述特征提取模型的第一损失值...

【专利技术属性】
技术研发人员:王璐魏韬马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1