一种低信噪比环境下的语音唤醒方法及装置制造方法及图纸

技术编号:38371360 阅读:11 留言:0更新日期:2023-08-05 17:35
本发明专利技术涉及语音技术领域,其公开了一种低信噪比环境下的语音唤醒方法及装置,提高低信噪比环境下的语音唤醒性能。本发明专利技术中的语音唤醒方法包括:S1、获取语音样本数据,利用对所述语音样本数据的仿真模拟获得训练数据集;S2、利用所述训练数据集对具有软阈值化处理功能的语音唤醒模型进行训练,获得训练完成的语音唤醒模型;S3、在应用场景下,以获取的待预测语音数据作为输入,利用训练完成的语音唤醒模型输出预测结果。本发明专利技术方案在对语音信号进行处理时加入了软阈值化处理,其能够对输入信号进行分解后再对分解后的信号进行多尺度的噪声过滤,从而提高在低信噪比环境下语音唤醒的性能。本发明专利技术适用于低信噪比环境下的语音设备唤醒。醒。醒。

【技术实现步骤摘要】
一种低信噪比环境下的语音唤醒方法及装置


[0001]本专利技术涉及语音
,具体涉及一种低信噪比环境下的语音唤醒方法及装置。

技术介绍

[0002]语音唤醒技术已经被广泛用于我们的生活中,如智能语音助手、扫地机等等。以往的语音唤醒技术针对信噪比较高的语音环境(如居家、办公等),在低信噪比环境(如商场)下,由于背景噪声较大,严重干扰了正常语音的识别,因此面临着唤醒性能大幅下降的问题。

技术实现思路

[0003]本专利技术所要解决的技术问题是:提出一种低信噪比环境下的语音唤醒方法及装置,提高低信噪比环境下的语音唤醒性能。
[0004]本专利技术解决上述技术问题采用的技术方案是:
[0005]一方面,本专利技术提供了一种低信噪比环境下的语音唤醒方法,包括以下步骤:
[0006]S1、获取语音样本数据,利用对所述语音样本数据的仿真模拟获得训练数据集;
[0007]S2、利用所述训练数据集对具有软阈值化处理功能的语音唤醒模型进行训练,获得训练完成的语音唤醒模型;
[0008]S3、在应用场景下,以获取的待预测语音数据作为输入,利用训练完成的语音唤醒模型输出预测结果。
[0009]进一步的,步骤S1中,所述语音样本数据包括目标唤醒语音、负样本语音、噪声语音和混响语音。
[0010]进一步的,步骤S1中,所述仿真模拟包括但不限于对目标唤醒语音及负样本语音加入随机混响,再加入随机信噪比的环境噪声,如

5dB~10dB。
[0011]进一步的,步骤S2中,所述具有软阈值化处理功能的语音唤醒模型采用残差结构,其包括n个级联的特征处理块,所述n大于等于2;每一个特征处理块具有软阈值化处理层,用于对残差信号进行软阈值化处理。
[0012]进一步的,所述特征处理块包括顺次相连的第一因果扩张卷积网络(Dilated Causal Conv)、第一批归一化层(Batch Normalization)、第一Relu激活函数、第二因果扩张卷积网络(Dilated Causal Conv)、第二批归一化层(Batch Normalization)以及软阈值处理层。
[0013]进一步的,所述软阈值处理层包括但不限于采用全连接层(Fully Connected Layer)、门控循环单元(GRU)或前馈顺序记忆网络(FSMN)等网络结构对注意力权重进行预测;其中,采用全连接层的网络结构具体包括顺次相连的平均池化层(Average Pooling Layer)、第一全连接层(Fully Connected Layer)、第三批归一化层(Batch Normalization)、第二Relu激活函数、第二全连接层(Fully Connected Layer)、第四批归
一化层(Batch Normalization)和Sigmoid激活函数。
[0014]进一步的,步骤S2中,在对具有软阈值化处理功能的语音唤醒模型进行训练过程中,提取的声学特征包括但不限于FBANK或MFCC特征。
[0015]进一步的,步骤S2中,在对具有软阈值化处理功能的语音唤醒模型进行训练过程中,使用交叉熵损失函数(entropy loss)以及最大池化损失函数(max

pooling loss)的联合损失对语音唤醒模型进行训练,挑选联合损失的loss值最低时的模型作为训练完成的语音唤醒模型。
[0016]进一步的,步骤S3中,所述利用训练完成的语音唤醒模型输出预测结果是输入的待预测语音数据为唤醒词的概率值,步骤S3还包括:若所述概率值大于预先设定的唤醒阈值,则对目标设备进行唤醒。
[0017]第二方面,本专利技术还提供了一种低信噪比环境下的语音唤醒装置,其包括:
[0018]数据仿真模块,用于对语音样本数据进行仿真模拟获得训练数据集;
[0019]模型训练模块,用于利用所述训练数据集对具有软阈值化处理功能的语音唤醒模型进行训练,获得训练完成的语音唤醒模型;
[0020]预测输出模块,用于以获取的待预测语音数据作为输入,利用训练完成的语音唤醒模型输出预测结果。
[0021]本专利技术的有益效果是:
[0022]本专利技术方案在对语音信号进行处理时加入了软阈值化处理,其能够对输入信号进行分解后再对分解后的信号进行多尺度的噪声过滤,因此能够提高在低信噪比环境下语音唤醒的性能。
附图说明
[0023]图1为本专利技术实施例1中的低信噪比环境下的语音唤醒方法流程图;
[0024]图2为本专利技术实施例1中的一种可选的具有软阈值化处理功能的语音唤醒模型结构图;
[0025]图3为本专利技术实施例1中的一种可选的软阈值化处理层结构图;
[0026]图4为本专利技术实施例2中的低信噪比环境下的语音唤醒装置结构框图。
具体实施方式
[0027]本专利技术旨在提出一种低信噪比环境下的语音唤醒方法及装置,提高低信噪比环境下的语音唤醒性能。该方案通过在常用的语音唤醒模型的基础上,加入了软阈值化处理,多尺度的对噪声进行过滤,从而提高了低信噪比环境下语音唤醒模型的性能。
[0028]实施例1:
[0029]本实施例为低信噪比环境下的语音唤醒方法实施例,如图1所示,本实施例中的低信噪比环境下的语音唤醒方法包括以下步骤:
[0030]S1、获取语音样本数据,利用对所述语音样本数据的仿真模拟获得训练数据集;
[0031]可选的,语音样本数据包括目标唤醒语音、负样本语音、噪声语音,混响语音,来源包括但不限于开源数据集;仿真模拟方法包括但不限于对目标唤醒语音及负样本语音加入随机混响,再加入随机信噪比的环境噪声,如

5dB~10dB,获得仿真带噪语音,从而构建训
练数据集。
[0032]S2、利用所述训练数据集对具有软阈值化处理功能的语音唤醒模型进行训练,获得训练完成的语音唤醒模型;
[0033]可选的,如图2所示,语音唤醒模型采用了残差结构,其包括n个级联的特征处理块,每一个特征处理块包括包括但不限于采用时间卷积网络(TCN),其结构包括依次相连的:因果扩张卷积网络(Dilated Causal Conv)、批归一化层(Batch Normalization)、Relu激活函数、因果扩张卷积网络(Dilated Causal Conv)、批归一化层(Batch Normalization)、软阈值处理层,软阈值处理层包括但不限于采用全连接层(Fully Connected Layer)、门控循环单元(GRU)、前馈顺序记忆网络(FSMN)等网络结构对注意力权重进行预测。
[0034]如图3所示,一种可选的采用全连接层网络结构的具体示例中,其包括顺次相连的平均池化层(Average Pooling Layer)、全连接层(Fully Connected Layer)、批归一化层(Batch Normalization)、Relu激活函数、全连接层(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低信噪比环境下的语音唤醒方法,其特征在于,包括以下步骤:S1、获取语音样本数据,利用对所述语音样本数据的仿真模拟获得训练数据集;S2、利用所述训练数据集对具有软阈值化处理功能的语音唤醒模型进行训练,获得训练完成的语音唤醒模型;S3、在应用场景下,以获取的待预测语音数据作为输入,利用训练完成的语音唤醒模型输出预测结果。2.如权利要求1所述的一种低信噪比环境下的语音唤醒方法,其特征在于,步骤S1中,所述语音样本数据包括目标唤醒语音、负样本语音、噪声语音和混响语音。3.如权利要求2所述的一种低信噪比环境下的语音唤醒方法,其特征在于,步骤S1中,所述仿真模拟包括:对目标唤醒语音及负样本语音加入随机混响,再加入随机信噪比的环境噪声。4.如权利要求1所述的一种低信噪比环境下的语音唤醒方法,其特征在于,步骤S2中,所述具有软阈值化处理功能的语音唤醒模型采用残差结构,其包括n个级联的特征处理块,所述n大于等于2;每一个特征处理块具有软阈值化处理层,用于对残差信号进行软阈值化处理。5.如权利要求4所述的一种低信噪比环境下的语音唤醒方法,其特征在于,所述特征处理块包括顺次相连的第一因果扩张卷积网络、第一批归一化层、第一Relu激活函数、第二因果扩张卷积网络、第二批归一化层以及软阈值处理层。6.如权利要求5所述的一种低信噪比环境下的语音唤醒方法,其特征在于,所述软阈值处理层包括采用全连接层、门控循环单元或前馈顺序记忆网络的网络结构对注意力权...

【专利技术属性】
技术研发人员:朱海王昆周琳岷
申请(专利权)人:四川长虹电子控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1