语音识别方法、装置及相关设备制造方法及图纸

技术编号:34970953 阅读:24 留言:0更新日期:2022-09-21 14:10
本发明专利技术提供一种语音识别方法、装置及相关设备。该方法包括:获取第一语音数据;对所述第一语音数据进行特征提取处理,获得第一语音特征信息;将所述第一语音特征信息输入至第一网络模型中,利用阶梯激活函数对所述第一语音特征信息进行稀疏处理,输出亲密度矩阵;将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理,输出所述第一语音数据对应的说话人分割结果。这样,可以使得第一语音特征信息稀疏化,从而提升了第二网络模型最终输出的说话人分割结果的准确度。人分割结果的准确度。人分割结果的准确度。

【技术实现步骤摘要】
语音识别方法、装置及相关设备


[0001]本专利技术实施例涉及通信
,尤其涉及一种语音识别方法、装置及相关设备。

技术介绍

[0002]随着电子技术的发展,语音识别技术在人们的生活中起到了越来越重要的作用,如从语音数据中获取信息是现代机器学习研究的重要方向,语音机器学习的发展方向主要包括语音识别(ASR),文本转语音(TTS),说话人识别(SR)等。基于对话场景的说话人识别又包含说话人分割(SD)这一子问题。说话人分割是指在采集的语音信号流中,分辨出不同说话人的说话时长并进行标注的任务。
[0003]在实际的使用过程中,专利技术人发现现有技术中存在以下问题:对语音中说话人的分割结果的识别准确度较低。

技术实现思路

[0004]本专利技术实施例提供一种语音识别方法、装置及相关设备,以解决对语音中说话人的分割结果的识别准确度较低的问题。
[0005]为解决上述问题,本专利技术是这样实现的:
[0006]第一方面,本专利技术实施例提供了一种语音识别方法,所述方法包括:
[0007]获取第一语音数据;
[0008]对所述第一语音数据进行特征提取处理,获得第一语音特征信息;
[0009]将所述第一语音特征信息输入至第一网络模型中,利用阶梯激活函数对所述第一语音特征信息进行稀疏处理,输出亲密度矩阵;
[0010]将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理,输出所述第一语音数据对应的说话人分割结果。
[0011]第二方面,本专利技术实施例提供了一种语音识别装置,包括:
[0012]第一获取模块,用于获取第一语音数据;
[0013]第一处理模块,用于对所述第一语音数据进行特征提取处理,获得第一语音特征信息;
[0014]第二处理模块,用于将所述第一语音特征信息输入至第一网络模型中,利用阶梯激活函数对所述第一语音特征信息进行稀疏处理,输出亲密度矩阵;
[0015]第三处理模块,用于将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理,输出所述第一语音数据对应的说话人分割结果。
[0016]第三方面,本专利技术实施例还提供一种电子设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。
[0017]第四方面,本专利技术实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。
[0018]在本专利技术实施例中,获取第一语音数据;对所述第一语音数据进行特征提取处理,获得第一语音特征信息;将所述第一语音特征信息输入至第一网络模型中,利用阶梯激活函数对所述第一语音特征信息进行稀疏处理,输出亲密度矩阵;将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理,输出所述第一语音数据对应的说话人分割结果。这样,可以使得第一语音特征信息稀疏化,从而提升了第二网络模型最终输出的说话人分割结果的准确度。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术实施例提供的语音识别方法的流程图之一;
[0021]图2是本专利技术实施例提供的第一网络模型的训练示意图;
[0022]图3是本专利技术实施例提供的第一网络模型的结构示意图;
[0023]图4是本专利技术实施例提供的阶梯激活函数的示意图;
[0024]图5是本专利技术实施例提供的语音识别装置的结构示意图;
[0025]图6是本专利技术实施提供的电子设备的结构示意图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]本专利技术实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本申请中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B和/或C,表示包含单独A,单独B,单独C,以及A和B都存在,B和C都存在,A和C都存在,以及A、B和C都存在的7种情况。
[0028]请参见图1,图1为本专利技术实施例提供的一种语音识别方法的流程图,如图1所示,包括以下步骤:
[0029]步骤101、获取第一语音数据。
[0030]其中,第一语音数据可以通过麦克风等音频采集设备采集得到的语音数据,而由于是为了对第一语音数据中的说话人进行分割,因此,第一语音数据可以为在对话场景下采集的语音数据,即第一语音数据中可以包括至少两个对话人的语音数据。因此,上述第一语音数据也可以理解为对话场景数据或者用户的语音数据。
[0031]而上述对话场景可以包括人与人之间的对话场景或者人与机器之间的对话场景。
[0032]步骤102、对所述第一语音数据进行特征提取处理,获得第一语音特征信息。
[0033]由于语音数据的保存采样率通常是16khz,短时语素特征在20ms以上的范围内被认为是平稳过程。因此需要对原始音频数据(即第一语音数据)进行分帧、加窗处理以提取对应音素的频谱特征(即第一语音特征信息)。
[0034]例如:可以对第一语音数据通过分帧以及加窗处理之后,再进行快速傅里叶变换提取一帧内语音的频谱特征,得到以帧为单位的频谱图,而上述频谱图即可以理解为第一语音特征信息。也就是说:作为一种可选的实施方式,所述第一语音特征信息为频谱图。这样,可以使得第一网络模型对第一语音特征信息的识别更加方便。当然,作为另一种可选的实施方式,所述第一语音特征信息为特征向量,例如:可以为基于梅尔滤波器的梅尔倒谱系数以及组合特征的集合等。
[0035]步骤103、将所述第一语音特征信息输入至第一网络模型中,利用阶梯激活函数对所述第一语音特征信息进行稀疏处理,输出亲密度矩阵。
[0036]其中,阶梯激活函数的主要目的是用于稀疏化向量空间,与一般的激活函数用于产生非线性映射关系的目的存在本质上的不同。
[0037]其中,上述亲密度矩阵也可以理解为亲密矩阵,且亲密度矩阵是以帧为单位长度。
[0038]步骤104、将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理,输出所述第一语音数据对应的说话人分割结果。
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取第一语音数据;对所述第一语音数据进行特征提取处理,获得第一语音特征信息;将所述第一语音特征信息输入至第一网络模型中,利用阶梯激活函数对所述第一语音特征信息进行稀疏处理,输出亲密度矩阵;将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理,输出所述第一语音数据对应的说话人分割结果。2.根据权利要求1所述的方法,其特征在于,所述第一网络模型包括表示向量的嵌入层,所述阶梯激活函数应用于所述嵌入层。3.根据权利要求1所述的方法,其特征在于,所述阶梯激活函数为:其中,a、c和p均为可调超参数,且p<1,1<a<c,x为在有理数集上的n维向量,ceil是取整函数。4.根据权利要求1所述的方法,其特征在于,所述将所述第一语音特征信息输入至第一网络模型中之前,所述方法还包括:获取第二语音数据;对所述第二语音数据进行特征提取处理,获得第二语音特征信息;将所述第二语音特征信息输入至待训练网络模型中,以训练得到所述第一网络模型;其中,所述待训练网络模型和所述第一网络模型中均应用有所述阶梯激活函数。5.根据权利要求4所述的方法,其特征在于,所述对所述第二语音数据进行特征提取处理,获得第二语音特征信息,包括:对所述第二语音数据进行预设处理;对预设处理后的第二语音数据进行特征提取处理,获得第二语音特征信息。6.根据权利要求4所述的方法,其特征在于,所述第一语音特征信息和所述第二语音特征信息均为频谱图。7.一种语音识别装置,其特征在于,包括:第一获取模块,用于获取第一语音数据;第一处理模块,用于对所述第一语音数据进行特征提取处理,获得第一语音特征信息;第二处理模块,用于将所述第一语音特征信息输入至第一...

【专利技术属性】
技术研发人员:朱森亮
申请(专利权)人:中移智行网络科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1