当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于语音合成数据增强的唤醒词训练方法技术

技术编号:26691795 阅读:49 留言:0更新日期:2020-12-12 02:44
本发明专利技术涉及音频信号处理,语音识别等技术领域,更具体地,涉及一种基于语音合成数据增强的唤醒词训练方法。包括以下步骤:S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;S4.由置信度计算语音数据唤醒词的最后得分;S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。有效提高了系统对混淆词的识别率。

【技术实现步骤摘要】
一种基于语音合成数据增强的唤醒词训练方法
本专利技术涉及音频信号处理,语音识别等
,更具体地,涉及一种基于语音合成数据增强的唤醒词训练方法。
技术介绍
随着智能语音助手的出现,唤醒词识别系统在人机交互中发挥着越来越重要的作用。唤醒词识别旨在检测连续音频流中预定义的关键字或一组关键字。因此,设备上的唤醒词系统要求实时响应和低的计算成本,同时限制内存的消耗和计算设备数量。同时,它对不同的复杂词的检测精度和鲁棒性要求很高。传统的方法中存在以下问题:问题一,传统方法的泛化性能还不足,识别的误报率和虚警率都较高。难以投入使用。问题二,由于与唤醒词相似的混淆词真实样本难以采集,可使用的数据相对较少。训练性能高,鲁棒性强的模型有较高难度。同时,数据不平衡的问题也会影响系统的整体表现。问题三,神经网络的建模单元选择不妥当,当前大部分的神经网络的建模单元为整个唤醒词或者唤醒词中的单独字,这会导致神经网络很可能只会识别唤醒词中的部分特征。在传统方法中,语音合成技术没有得到充分利用。
技术实现思路
本专利技术为克服上述现有技术中的至少一个缺陷,提供一种基于语音合成数据增强的唤醒词训练方法,有效提高了系统对混淆词的识别率。为解决上述技术问题,本专利技术采用的技术方案是:一种基于语音合成数据增强的唤醒词训练方法,包括以下步骤:S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;S4.由置信度计算语音数据唤醒词的最后得分;S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。在其中一个实施例中,所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。在其中一个实施例中,所述的S2步骤中选择对数梅尔频谱特征进行特征提取。在其中一个实施例中,所述的对数梅尔频谱特征的提取具体包括:S21.对语音信号序列进行短时傅里叶变换;短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;S22.对生成的频率频谱图做梅尔变换;S23.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。在其中一个实施例中,所述的步骤S3中,在进行训练之前,先对提取的特征进行前后若干帧的拼接,从而增加上下文信息。在其中一个实施例中,所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成,每个卷积层后面都有一个最大池层;卷积核大小为(3,3),步长为(1,1),最大池大小设置为(2,2);然后,使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率;在隐层中用整流线性单元ReLU作为激活函数。在其中一个实施例中,计算在卷积神经网络最后全连接层的倒数第二层输出上的CORAL损失Lcoral;将真实正样本、合成负样本、真实正样本三个领域的数据收集在一起进行训练,计算损失的策略如下:其中,交叉熵损失Lce是通过源分布和目标分布的数据逻辑来计算的;Ctrue-neg、Csynt-neg和Ctrue-neg表示用于CORAL计算的嵌入特征的协方差矩阵;最后,通过最小化联合损失,使合成负样本与真实负样本的嵌入特征差异最小化,并使合成负样本与真实正样本的嵌入特征差异最大化。在其中一个实施例中,假设得到了源训练数据DS={xi}和目标数据DT={ui},假设源数据和目标数据的数量分别为nS和nT;x和u都是要学习的输入I的d维深层激活Φ(I);假设表示第i个源数据示例的第j维,CS(CT)表示特征协方差矩阵;CORAL损失定义为:其中表示方阵Frobenius范数;其中特征协方差矩阵表示为:在其中一个实施例中,在训练过程中采用有监督的训练,监督的目标为唤醒词语音和其他语音;训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值;若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。在其中一个实施例中,经过训练后,模型将声学特征序列转化为唤醒词的后验概率序列;由于是二元目标模型,置信度计算采用直接判别法进行决策;在输入信号长度为Ts的滑动窗口上反复进行唤醒词检测算法,以从连续的音频流中检测关键字;将作为包含N帧的X段上的一个输入窗口;然后使用最大值定义关键字得分,如下所示:其中,Pkeyword(x(t),Φ)是关键字标签在t帧处的后验概率;该算法的时间复杂度为O(N),适合于实时应用。本专利技术提供一种新的基于深度神经网络的唤醒词训练算法,通过一种基于深度学习的唤醒词识别算法对设备采集到的音频流进行分析,达到检测唤醒词的目的。本专利技术能够通过基于多说话人的语音合成技术来进行数据扩充,减轻混淆词数据量不足带来的性能难以提高问题。通过加入新的损失函数CORAL的方法,充分加大混淆词与正样本特征之间的统计距离,缩小混淆词与负样本特征之间的统计距离。通过深度学习训练,让系统达到较好的泛化性能。本专利技术的主要应用在于对唤醒词进行检测,保证智能设备更好的用户体验。与现有技术相比,有益效果是:1.本专利技术通过合成音频和掩盖音频的数据扩充方法,充分利用了已有的数据,使得模型更加稳定,抗噪声性能更强。相较于传统唤醒词识别模型,在含有混淆词的识别环境中展现了99%的性能提高。2.本专利技术算法使用了加入CORAL损失的神经网络模型。相对于只用交叉熵损失的传统神经网络模型能够得到更高的识别准确率。在具体应用中能够更加鲁棒,稳定。附图说明图1是本专利技术方法整体流程图。图2是本专利技术卷积神经网络模型结构示意图。图3是本专利技术实施例中模型训练阶段结构示意图。图4是本专利技术实施例中模型测试阶段结构示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利技术的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利技术的限制。如图1所示,本专利技术提供一种基于语音合成数据增强的唤醒词训练方法,包括以下步骤:S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;S4.由置信度计算语音数据唤醒词的最后得分;S5.将步骤S4计算的最后得分本文档来自技高网...

【技术保护点】
1.一种基于语音合成数据增强的唤醒词训练方法,其特征在于,包括以下步骤:/nS1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;/nS2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;/nS3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;/nS4.由置信度计算语音数据唤醒词的最后得分;/nS5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。/n

【技术特征摘要】
1.一种基于语音合成数据增强的唤醒词训练方法,其特征在于,包括以下步骤:
S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;
S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;
S4.由置信度计算语音数据唤醒词的最后得分;
S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。


2.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。


3.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的S2步骤中选择对数梅尔频谱特征进行特征提取。


4.根据权利要求3所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的对数梅尔频谱特征的提取具体包括:
S21.对语音信号序列进行短时傅里叶变换;短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
S22.对生成的频率频谱图做梅尔变换;
S23.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。


5.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的步骤S3中,在进行训练之前,先对提取的特征进行前后若干帧的拼接,从而增加上下文信息。


6.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成,每个卷积层后面都有一个最大池层;卷积核大小为(3,3),步长为(1,1),最大池大小设置为(2,2);然后,使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率;在隐层中用整流线性单元ReLU作为激活函数。


7.根据权利要求6所述的基于语音合...

【专利技术属性】
技术研发人员:贾彦张东
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1