基于联邦学习的语音识别方法、系统和计算机设备技术方案

技术编号:37969525 阅读:7 留言:0更新日期:2023-06-30 09:44
本申请涉及自然语言处理领域,提供基于联邦学习的语音识别方法、系统和计算机设备,该方法通过学习端获取本地语音样本集,获取初始本地模型,并采用自编码网络进行特征提取处理得到输出值;根据输出值和样本标签对初始本地模型进行训练得到第一融合自适应参数;通过服务器得到第一全局融合参数;基于第一全局融合参数训练初始本地模型得到第二融合自适应参数,当满足预设的结束条件,得到目标本地模型,并通过服务器确定目标语音识别模型,应用端通过目标语音识别模型对语音数据进行语音识别。本申请实施例通过向服务器只传输模型的特征融合结构修改的参数,能够在减少模型参数量的同时,增加特征的表示能力,具有较高的语音识别准确率。别准确率。别准确率。

【技术实现步骤摘要】
基于联邦学习的语音识别方法、系统和计算机设备


[0001]本申请涉及自然语言处理
,特别涉及一种基于联邦学习的语音识别方法、系统和计算机设备。

技术介绍

[0002]联邦学习(Federated Learning)是一种新兴的人工智能基础技术,包括多个终端和服务器。在基于联邦学习的语音识别模型的训练过程中,每个终端所具有的语音样本不与其他终端以及服务器共享,并且服务器与终端之间仅沟通模型参数,使得每个终端能够确保自身语音样本不外传的同时从其他终端的数据中受益,从而保证模型的准确性,语音识别准确度高。随着技术的发展,语音样本所具有的标签越来越多,或者输入模型的语音序列过长,导致模型参数量增加。相关技术中,通过在一个大型模型结构中的适当位置加入适配器模块,通过冻结原始模型,只更新适配器模块的参数,大幅度减少模型参数修改的数量。然而,适配器模块是一个较为简单的结构,其修正能力有限,学习能力有限,导致语音识别的准确率有所降低。

技术实现思路

[0003]本申请的旨在至少一定程度解决现有技术的问题,提供一种基于联邦学习的语音识别方法、系统和计算机设备,通过向服务器只传输模型的特征融合结构修改的参数,能够在减少模型参数量的同时,增加特征的表示能力,具有较高的语音识别准确率。
[0004]本申请实施例的技术方案如下:
[0005]第一方面,本申请提供了一种基于联邦学习的语音识别方法,应用于语音识别系统,所述语音识别系统包括应用端、服务器和多个学习端,所述方法包括:
[0006]所述学习端获取本地语音样本集,所述语音样本集包括多个语音样本和各个所述语音样本对应的样本标签;
[0007]所述学习端获取初始本地模型,所述初始本地模型的自编码网络进行以下处理:对各个所述语音样本进行第一特征提取处理得到第一语音特征集,对所述第一语音特征集进行第二特征提取处理得到第二语音特征集,将所述第一语音特征集和所述第二语音特征集进行第一融合处理,得到第三语音特征集,将所述第一语音特征集、所述第二语音特征集和所述第三语音特征集进行第二融合处理,得到输出值;
[0008]所述学习端根据所述输出值和所述样本标签对所述初始本地模型进行训练,以得到第一融合自适应参数;
[0009]所述学习端向所述服务器发送所述第一融合自适应参数,并接收来自所述服务器发送的对所述第一融合自适应参数进行聚合得到的第一全局融合参数;
[0010]所述学习端基于所述第一全局融合参数训练所述初始本地模型,得到第二融合自适应参数,在满足预设的结束条件下,得到所述第二融合自适应参数对应的目标本地模型,并将所述目标本地模型发送至所述服务器;
[0011]所述服务器根据每个所述学习端发送的所述目标本地模型确定目标语音识别模型,并将所述目标语音识别模型发送至所述应用端;
[0012]所述应用端通过所述目标语音识别模型对输入的语音数据进行语音识别。
[0013]根据本申请的一些实施例,所述将所述第一语音特征集、所述第二语音特征集和所述第三语音特征集进行第二融合处理,得到输出值,包括:
[0014]将所述第一语音特征集作为注意力机制的第一矩阵;
[0015]将所述第二语音特征集作为所述注意力机制的第二矩阵;
[0016]将所述第三语音特征集作为所述注意力机制的第三矩阵;
[0017]所述学习端根据预设的融合算法对所述第一矩阵、所述第二矩阵和所述第三矩阵进行第一矩阵融合处理,得到所述输出值。
[0018]根据本申请的一些实施例,所述学习端根据预设的融合算法对所述第一矩阵、所述第二矩阵和所述第三矩阵进行第一矩阵融合处理,得到所述输出值,包括:
[0019]所述学习端对所述第一矩阵和所述第二矩阵进行第二矩阵融合处理,得到第一融合值;
[0020]所述学习端利用归一化层对所述第一融合值进行归一化处理,得到第二融合值;
[0021]所述学习端对所述第二融合值和所述第三矩阵进行第三矩阵融合处理,得到所述输出值。
[0022]根据本申请的一些实施例,在所述学习端基于所述第一全局融合参数训练所述初始本地模型,得到第二融合自适应参数之后,所述方法还包括:
[0023]在不满足预设的结束条件的情况下,所述学习端向所述服务器发送所述第二融合自适应参数;
[0024]所述学习端接收来自所述服务器发送的对所述第二融合自适应参数进行聚合得到的第二全局融合参数;
[0025]所述学习端基于所述第二全局融合参数训练所述初始本地模型。
[0026]根据本申请的一些实施例,所述学习端根据所述输出值和所述样本标签对所述初始本地模型进行训练,以得到第一融合自适应参数,包括:
[0027]所述学习端根据所述输出值和所述输出值对应的所述样本标签,得到损失函数的值;
[0028]所述学习端根据所述损失函数的值对所述初始本地模型进行训练,得到所述第一融合自适应参数。
[0029]根据本申请的一些实施例,所述对所述第一语音特征集进行第二特征提取处理得到第二语音特征集,包括:
[0030]所述学习端对所述第一语音特征集进行下采样操作,得到采样特征;
[0031]所述学习端对所述采样特征进行上采样操作,得到所述第二语音特征集。
[0032]根据本申请的一些实施例,所述学习端根据所述输出值和所述输出值对应的所述样本标签,得到损失函数的值,包括:
[0033]所述学习端利用KL散度计算所述输出值与所述输出值对应的所述样本标签的值,得到损失函数的值。
[0034]第二方面,本申请提供了一种基于联邦学习的语音识别系统,所述语音识别系统
包括应用端、服务器和多个学习端,所述学习端包括:
[0035]数据获取模块,用于获取本地语音样本集,所述语音样本集包括多个语音样本和各个所述语音样本对应的样本标签;
[0036]模型获取模块,用于获取初始本地模型,所述初始本地模型的自编码网络进行以下处理:对各个所述语音样本进行第一特征提取处理得到第一语音特征集,对所述第一语音特征集进行第二特征提取处理得到第二语音特征集,将所述第一语音特征集和所述第二语音特征集进行第一融合处理,得到第三语音特征集,将所述第一语音特征集、所述第二语音特征集和所述第三语音特征集进行第二融合处理,得到输出值;
[0037]第一处理模块,用于根据所述输出值和所述样本标签对所述初始本地模型进行训练,以得到第一融合自适应参数;
[0038]发送模块,用于向所述服务器发送所述第一融合自适应参数,接收模块用于接收来自所述服务器发送的对所述第一融合自适应参数进行聚合得到的第一全局融合参数;
[0039]第二处理模块,用于基于所述第一全局融合参数训练所述初始本地模型,得到第二融合自适应参数,在满足预设的结束条件下,得到所述第二融合自适应参数对应的目标本地模型,发送模块还用于将所述目标本地模型发送至所述服务器;
[0040]所述服本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的语音识别方法,其特征在于,应用于语音识别系统,所述语音识别系统包括应用端、服务器和多个学习端,所述方法包括:所述学习端获取本地语音样本集,所述语音样本集包括多个语音样本和各个所述语音样本对应的样本标签;所述学习端获取初始本地模型,所述初始本地模型的自编码网络进行以下处理:对各个所述语音样本进行第一特征提取处理得到第一语音特征集,对所述第一语音特征集进行第二特征提取处理得到第二语音特征集,将所述第一语音特征集和所述第二语音特征集进行第一融合处理,得到第三语音特征集,将所述第一语音特征集、所述第二语音特征集和所述第三语音特征集进行第二融合处理,得到输出值;所述学习端根据所述输出值和所述样本标签对所述初始本地模型进行训练,以得到第一融合自适应参数;所述学习端向所述服务器发送所述第一融合自适应参数,并接收来自所述服务器发送的对所述第一融合自适应参数进行聚合得到的第一全局融合参数;所述学习端基于所述第一全局融合参数训练所述初始本地模型,得到第二融合自适应参数,在满足预设的结束条件下,得到所述第二融合自适应参数对应的目标本地模型,并将所述目标本地模型发送至所述服务器;所述服务器根据每个所述学习端发送的所述目标本地模型确定目标语音识别模型,并将所述目标语音识别模型发送至所述应用端;所述应用端通过所述目标语音识别模型对输入的语音数据进行语音识别。2.根据权利要求1所述的方法,其特征在于,所述将所述第一语音特征集、所述第二语音特征集和所述第三语音特征集进行第二融合处理,得到输出值,包括:将所述第一语音特征集作为注意力机制的第一矩阵;将所述第二语音特征集作为所述注意力机制的第二矩阵;将所述第三语音特征集作为所述注意力机制的第三矩阵;所述学习端根据预设的融合算法对所述第一矩阵、所述第二矩阵和所述第三矩阵进行第一矩阵融合处理,得到所述输出值。3.根据权利要求2所述的方法,其特征在于,所述学习端根据预设的融合算法对所述第一矩阵、所述第二矩阵和所述第三矩阵进行第一矩阵融合处理,得到所述输出值,包括:所述学习端对所述第一矩阵和所述第二矩阵进行第二矩阵融合处理,得到第一融合值;所述学习端利用归一化层对所述第一融合值进行归一化处理,得到第二融合值;所述学习端对所述第二融合值和所述第三矩阵进行第三矩阵融合处理,得到所述输出值。4.根据权利要求1所述的方法,其特征在于,在所述学习端基于所述第一全局融合参数训练所述初始本地模型,得到第二融合自适应参数之后,所述方法还包括:在不满足预设的结束条件的情况下,所述学习端向所述服务器发送所述第二融合自适应参数;所述学习端接收来自所述服务器发送的对所述第二融合自适应参数进行聚合得到的第二全局融合参数;
所述学习端基于所述第二全局融合参数训练所述初始本地模型。5.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:李泽远王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1