一种基于语音合成数据增强的唤醒词训练方法技术

技术编号：26691795 阅读：63 留言：0更新日期：2020-12-12 02:44

本发明专利技术涉及音频信号处理，语音识别等技术领域，更具体地，涉及一种基于语音合成数据增强的唤醒词训练方法。包括以下步骤：S1.获取语音数据之后，对语音数据进行数据扩充，增加训练数据量；S2.对扩充后的训练数据进行声学特征提取，将一维的语音序列转换成二维的声学特征序列；S3.利用步骤S2提取的特征训练神经网络模型：对于卷积神经网络系统，训练卷积神经网络之后，利用该模型计算每一帧是唤醒词的后验概率；S4.由置信度计算语音数据唤醒词的最后得分；S5.将步骤S4计算的最后得分与预先设定的阈值进行比较，判定是否触发。有效提高了系统对混淆词的识别率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音合成数据增强的唤醒词训练方法
本专利技术涉及音频信号处理，语音识别等
，更具体地，涉及一种基于语音合成数据增强的唤醒词训练方法。
技术介绍
随着智能语音助手的出现，唤醒词识别系统在人机交互中发挥着越来越重要的作用。唤醒词识别旨在检测连续音频流中预定义的关键字或一组关键字。因此，设备上的唤醒词系统要求实时响应和低的计算成本，同时限制内存的消耗和计算设备数量。同时，它对不同的复杂词的检测精度和鲁棒性要求很高。传统的方法中存在以下问题：问题一，传统方法的泛化性能还不足，识别的误报率和虚警率都较高。难以投入使用。问题二，由于与唤醒词相似的混淆词真实样本难以采集，可使用的数据相对较少。训练性能高，鲁棒性强的模型有较高难度。同时，数据不平衡的问题也会影响系统的整体表现。问题三，神经网络的建模单元选择不妥当，当前大部分的神经网络的建模单元为整个唤醒词或者唤醒词中的单独字，这会导致神经网络很可能只会识别唤醒词中的部分特征。在传统方法中，语音合成技术没有得到充分利用。
技术实现思路
本专利技术为克...

【技术保护点】
1.一种基于语音合成数据增强的唤醒词训练方法，其特征在于，包括以下步骤：/nS1.获取语音数据之后，对语音数据进行数据扩充，增加训练数据量；/nS2.对扩充后的训练数据进行声学特征提取，将一维的语音序列转换成二维的声学特征序列；/nS3.利用步骤S2提取的特征训练神经网络模型：对于卷积神经网络系统，训练卷积神经网络之后，利用该模型计算每一帧是唤醒词的后验概率；/nS4.由置信度计算语音数据唤醒词的最后得分；/nS5.将步骤S4计算的最后得分与预先设定的阈值进行比较，判定是否触发。/n

【技术特征摘要】
1.一种基于语音合成数据增强的唤醒词训练方法，其特征在于，包括以下步骤：
S1.获取语音数据之后，对语音数据进行数据扩充，增加训练数据量；
S2.对扩充后的训练数据进行声学特征提取，将一维的语音序列转换成二维的声学特征序列；
S3.利用步骤S2提取的特征训练神经网络模型：对于卷积神经网络系统，训练卷积神经网络之后，利用该模型计算每一帧是唤醒词的后验概率；
S4.由置信度计算语音数据唤醒词的最后得分；
S5.将步骤S4计算的最后得分与预先设定的阈值进行比较，判定是否触发。

2.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法，其特征在于，所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。

3.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法，其特征在于，所述的S2步骤中选择对数梅尔频谱特征进行特征提取。

4.根据权利要求3所述的基于语音合成数据增强的唤醒词训练方法，其特征在于，所述的对数梅尔频谱特征的提取具体包括：
S21.对语音信号序列进行短时傅里叶变换；短时傅里叶变换是一种在音频处理领域常用的时频变换工具，它通过在语音上分帧，加窗，傅里叶变换，取模等操作，将时域的波形转换成频谱图；
S22.对生成的频率频谱图做梅尔变换；
S23.在进行梅尔变换处理完毕之后，进行对数变换，降低特征稀疏性。

5.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法，其特征在于，所述的步骤S3中，在进行训练之前，先对提取的特征进行前后若干帧的拼接，从而增加上下文信息。

6.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法，其特征在于，所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成，每个卷积层后面都有一个最大池层；卷积核大小为(3,3)，步长为(1,1)，最大池大小设置为(2,2)；然后，使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率；在隐层中用整流线性单元ReLU作为激活函数。

7.根据权利要求6所述的基于语音合...

【专利技术属性】
技术研发人员：贾彦，张东，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人