模型训练方法、语音识别方法、装置、服务器及存储介质制造方法及图纸

技术编号：29679411 阅读：21 留言：0更新日期：2021-08-13 22:02

本申请涉及人工智能中的模型构建，提供一种模型训练方法、语音识别方法、装置、服务器及存储介质，该方法包括：对语音数据进行第一信号处理得到第一语音数据，对语音数据进行第二信号处理得到第二语音数据；将第一语音数据和第二语音数据输入特征提取模型，以提取第一语音数据的第一特征向量，以及第二语音数据的第二特征向量；根据第一特征向量和第二特征向量，计算第一语音数据与第二语音数据之间的互信息；根据第一语音数据与第二语音数据之间的互信息，更新特征提取模型的模型参数，直至特征提取模型收敛；将收敛后的特征提取模型和训练好的语音识别模型进行融合并微调，以获取目标语音识别模型。本申请可提高语音识别模型的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、语音识别方法、装置、服务器及存储介质
本申请涉及模型构建的
，尤其涉及一种模型训练方法、语音识别方法、装置、服务器及存储介质。
技术介绍
随着新媒体行业的不断发展，语音数据的信道逐渐多样化，存在不同的带宽和编码格式，比如语音数据为8k或者16k采样率的录音数据，或者为ulaw，Alaw，amr等编码格式。一些情况下，在语音数据的传输过程中，还会对语音数据进行压缩等处理。这些都给语音识别带来了困难和挑战。目前的语音识别模型只能识别单一信道的语音数据，对于存在不同信道的语音数据的应用场景，需要训练多个分别与各信道的语音数据相匹配的语音识别模型，语音识别模型的鲁棒性较差，且因不同语音识别模型的训练数据无法共享，导致各个语音识别模型之间准确率相差较大，或者需要更多的训练数据，存在较大的弊端。
技术实现思路
本申请的主要目的在于提供一种模型训练方法、语音识别方法、装置、服务器及存储介质，旨在提高语音识别模型的鲁棒性和扩展性，从而提高语音识别的灵活性和准确性。第一方面，本申请提供一种模型训练方法，应用于服务器，所述服务器存储有特征提取模型和训练好的语音识别模型，所述方法包括：获取作为训练样本的语音数据，并对所述语音数据进行第一信号处理得到第一语音数据，对所述语音数据进行第二信号处理得到第二语音数据；将所述第一语音数据和第二语音数据输入所述特征提取模型，以提取所述第一语音数据的第一特征向量，以及所述第二语音数据的第二特征向量；根据所述第一特征向量和所述...

【技术保护点】
1.一种模型训练方法，其特征在于，应用于服务器，所述服务器存储有特征提取模型和训练好的语音识别模型，所述方法包括：/n获取作为训练样本的语音数据，并对所述语音数据进行第一信号处理得到第一语音数据，对所述语音数据进行第二信号处理得到第二语音数据；/n将所述第一语音数据和第二语音数据输入所述特征提取模型，以提取所述第一语音数据的第一特征向量，以及所述第二语音数据的第二特征向量；/n根据所述第一特征向量和所述第二特征向量，计算所述第一语音数据与第二语音数据之间的互信息；/n根据所述第一语音数据与第二语音数据之间的互信息，确定所述特征提取模型是否收敛；/n若所述特征提取模型未收敛，则更新所述特征提取模型的模型参数，并通过所述训练样本继续训练更新模型参数后的所述特征提取模型，直至所述特征提取模型收敛；/n将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合，得到融合模型；/n微调所述融合模型，以获取目标语音识别模型。/n

【技术特征摘要】
1.一种模型训练方法，其特征在于，应用于服务器，所述服务器存储有特征提取模型和训练好的语音识别模型，所述方法包括：
获取作为训练样本的语音数据，并对所述语音数据进行第一信号处理得到第一语音数据，对所述语音数据进行第二信号处理得到第二语音数据；
将所述第一语音数据和第二语音数据输入所述特征提取模型，以提取所述第一语音数据的第一特征向量，以及所述第二语音数据的第二特征向量；
根据所述第一特征向量和所述第二特征向量，计算所述第一语音数据与第二语音数据之间的互信息；
根据所述第一语音数据与第二语音数据之间的互信息，确定所述特征提取模型是否收敛；
若所述特征提取模型未收敛，则更新所述特征提取模型的模型参数，并通过所述训练样本继续训练更新模型参数后的所述特征提取模型，直至所述特征提取模型收敛；
将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合，得到融合模型；
微调所述融合模型，以获取目标语音识别模型。

2.如权利要求1所述的模型训练方法，其特征在于，所述第一信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，所述第二信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，所述第一信号处理不等同于所述第二信号处理。

3.如权利要求1所述的模型训练方法，其特征在于，所述根据所述第一特征向量和所述第二特征向量，计算所述第一语音数据与第二语音数据之间的互信息，包括：
从所述第一特征向量中确定所述语音数据各帧对应的特征信息，得到多个第一帧特征信息；
从所述第二特征向量中确定所述语音数据各帧对应的特征信息，得到多个第二帧特征信息；
根据所述语音数据各帧各自对应的所述第一帧特征信息和所述第二帧特征信息，计算所述第一语音数据与第二语音数据之间的互信息。

4.如权利要求1-3中任一项所述的模型训练方法，其特征在于，所述根据所述第一语音数据与第二语音数据之间的互信息，确定所述特征提取模型是否收敛，包括：
根据所述第一语音数据与第二语音数据之间的互信息，计算所述特征提取模型的损失值；
若所述特征提取模型的损失值小于或等于预设损失值，则确定所述特征提取模型收敛；
若所述特征提取模型的损失值大于预设损失值，则确定所述特征提取模型未收敛。

5.如权利要求4所述的模型训练方法，其特征在于，所述根据所述第一语音数据与第二语音数据之间的互信息，计算所述特征提取模型的损失值，包括：
获取表示互信息损失的第一权重，并获取表示分类损失的第二权重；
通过所述第一语音数据与第二语音数据之间的互信息与所述第一权重，确定所述特征提取模型的第一损失值...

【专利技术属性】
技术研发人员：王璐，魏韬，马骏，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人