语音信号处理方法、装置、设备及存储介质制造方法及图纸

技术编号:25712108 阅读:22 留言:0更新日期:2020-09-23 02:58
本申请公开了一种语音信号处理方法、装置、设备及存储介质,属于语音信号处理技术领域。本申请通过在获取到麦克风阵列采集到的第一语音信号后,将第一语音信号输入目标模型,由于目标模型是基于携带用户标签和角度标签的样本语音信号对深度神经网络模型进行训练得到,因此目标模型可以对第一语音信号进行识别,输出第一语音信号对应各个用户的概率和第一语音信号对应各个用户在各个角度上说话的概率,进而根据目标模型输出的概率,确定第一语音信号对应的第一用户和第一角度,也即是确定第一语音信号为第一用户在第一角度上说话产生,能够有效降低噪声的影响,同时能够利用用户的语音特征,提高DOA估计的准确性,更准确的确定用户的方向。

【技术实现步骤摘要】
语音信号处理方法、装置、设备及存储介质
本申请涉及语音信号处理
,尤其涉及一种语音信号处理方法、装置、设备及存储介质。
技术介绍
目前智能音箱、智能机器人等智能设备在人们的日常生活中广泛使用,智能设备一般通过麦克风阵列采集语音信号,通过对语音信号进行处理,可以实现相应的功能。其中,DOA(Directionofarrival,波达方向)估计是语音信号处理领域的研究热点,通过对语音信号进行DOA估计,可以确定用户(说话人)的方向。相关技术一般是基于子空间的MUSIC(MultipleSignalClassification,多重信号选择)算法或基于时延估计的GCC(GeneralizedCross-Correlation,广义相关)算法等,对语音信号进行处理,但是这些方法对语音信号的特性都有比较强的假设,因此对实际使用环境中普遍存在的非线性噪声以及混响没有很强的适应能力,在噪声较强环境下存在较大的性能下降,特别是在语音信号处理中同时存在多个用户的时候,很难准确的进行DOA估计,从而无法准确的确定用户的方向,因此,亟需一种语音信号处理方法,提高DOA估计的准确性,从而更准确的确定用户的方向。
技术实现思路
本申请实施例提供了一种语音信号处理方法、装置、设备及存储介质,可以提高DOA估计的准确性,从而更准确的确定用户的方向。所述技术方案如下。第一方面,提供一种语音信号处理方法,包括:获取第一语音信号,所述第一语音信号通过麦克风阵列采集得到;将所述第一语音信号输入目标模型,输出所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率,所述目标模型基于携带用户标签和角度标签的样本语音信号,对深度神经网络模型进行训练得到,所述各个角度用于表示所述各个用户相对于所述麦克风阵列的方向;根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的第一用户和第一角度。在一种可能实现方式中,所述根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的第一用户和第一角度,包括:根据所述第一语音信号对应所述各个用户的概率、所述第一语音信号对应所述各个用户在所述各个角度上说话的概率、第二语音信号对应所述各个用户的概率以及所述第二语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的所述第一用户和所述第一角度;其中,所述第二语音信号通过所述麦克风阵列在所述第一语音信号的采集时刻之前的时间段内采集得到。在一种可能实现方式中,所述根据所述第一语音信号对应所述各个用户的概率、所述第一语音信号对应所述各个用户在所述各个角度上说话的概率、第二语音信号对应所述各个用户的概率以及所述第二语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的所述第一用户和所述第一角度,包括:对于任一用户和任一角度,获取所述第一语音信号对应所述任一用户的概率、所述第一语音信号对应所述任一用户在所述任一角度上说话的概率和第一平滑因子的乘积,以及第二语音信号对应所述任一用户的概率、所述第二语音信号对应所述任一用户在所述任一角度上说话的概率和第二平滑因子的乘积;对获取到的各个乘积求和,得到所述任一用户和所述任一角度对应的求和结果;确定所述各个用户和所述各个角度对应的求和结果中的最大求和结果;将所述最大求和结果对应的用户和角度分别作为所述第一用户和所述第一角度。在一种可能实现方式中,所述将所述第一语音信号输入目标模型,输出所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率,包括:将所述第一语音信号输入所述目标模型,由所述目标模型中的卷积层,对所述第一语音信号进行处理,得到所述第一语音信号的语音特征;由所述目标模型中的长短期记忆LSTM层,对所述卷积层输出的所述第一语音信号的语音特征进行处理;由所述目标模型中的第一全连接层和第二全连接层,对所述LSTM层输出的所述第一语音信号的语音特征进行处理,得到所述第一语音信号对应各个用户的分数和所述第一语音信号对应所述各个用户在各个角度上说话的分数;由所述目标模型中的Softmax层,对所述第一全连接层和第二全连接层输出的分数进行处理,得到所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率。在一种可能实现方式中,所述第一语音信号用复数向量表示,所述卷积层用于进行复数域的卷积操作,所述复数域的卷积操作表示如下:W*x=(W0*x0-W1*x1)+i(W1*x0+W0*x1)其中,*表示卷积操作,W=W0+iW1,表示复数卷积核矩阵,W0和W1分别表示实部矩阵和虚部矩阵,x=x0+ix1,表示被卷积的复数向量,x0和x1分别表示实部向量和虚部向量,i为虚数单位。在一种可能实现方式中,所述目标模型中的卷积层后连接有归一化层和激活函数层,所述由所述目标模型中的LSTM层,对所述卷积层输出的所述第一语音信号的语音特征进行处理,包括:由所述目标模型中的所述归一化层和所述激活函数层,对所述卷积层输出的所述第一语音信号的语音特征进行处理;由所述目标模型中的所述LSTM层,对所述激活函数层输出的所述第一语音信号的语音特征进行处理。在一种可能实现方式中,所述方法还包括:对于输入所述激活函数层的复数向量中的任一元素,当所述任一元素的模小于目标阈值时,所述任一元素的激活函数值为所述任一元素,所述目标阈值大于0;当所述任一元素的模大于或等于所述目标阈值时,所述任一元素的激活函数值为0。在一种可能实现方式中,所述将所述第一语音信号输入目标模型,包括:对所述第一语音信号进行加窗处理和傅里叶变换,将变换后的信号输入所述目标模型。在一种可能实现方式中,所述目标模型的训练过程包括:将携带用户标签和角度标签的样本语音信号输入所述深度神经网络模型,输出所述样本语音信号对应所述各个用户的概率和所述样本语音信号对应所述各个用户在所述各个角度上说话的概率;根据所述样本语音信号对应所述各个用户的概率、所述样本语音信号对应所述各个用户在所述各个角度上说话的概率、所述样本语音信号携带的用户标签和角度标签,获取损失函数值;当所述损失函数值未达到训练结束条件时,对所述深度神经网络模型中的参数进行调整;从将样本语音信号输入所述深度神经网络模型,输出概率的步骤重新开始执行,直至损失函数值达到训练结束条件时结束训练,将结束训练时的深度神经网络模型作为所述目标模型。在一种可能实现方式中,所述根据所述样本语音信号对应所述各个用户的概率、所述样本语音信号对应所述各个用户在所述各个角度上说话的概率、所述样本语音信号携带的用户标签和角度本文档来自技高网...

【技术保护点】
1.一种语音信号处理方法,其特征在于,所述方法包括:/n获取第一语音信号,所述第一语音信号通过麦克风阵列采集得到;/n将所述第一语音信号输入目标模型,输出所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率,所述目标模型基于携带用户标签和角度标签的样本语音信号,对深度神经网络模型进行训练得到,所述各个角度用于表示所述各个用户相对于所述麦克风阵列的方向;/n根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的第一用户和第一角度。/n

【技术特征摘要】
1.一种语音信号处理方法,其特征在于,所述方法包括:
获取第一语音信号,所述第一语音信号通过麦克风阵列采集得到;
将所述第一语音信号输入目标模型,输出所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率,所述目标模型基于携带用户标签和角度标签的样本语音信号,对深度神经网络模型进行训练得到,所述各个角度用于表示所述各个用户相对于所述麦克风阵列的方向;
根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的第一用户和第一角度。


2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的第一用户和第一角度,包括:
根据所述第一语音信号对应所述各个用户的概率、所述第一语音信号对应所述各个用户在所述各个角度上说话的概率、第二语音信号对应所述各个用户的概率以及所述第二语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的所述第一用户和所述第一角度;
其中,所述第二语音信号通过所述麦克风阵列在所述第一语音信号的采集时刻之前的时间段内采集得到。


3.根据权利要求2所述的方法,其特征在于,所述根据所述第一语音信号对应所述各个用户的概率、所述第一语音信号对应所述各个用户在所述各个角度上说话的概率、第二语音信号对应所述各个用户的概率以及所述第二语音信号对应所述各个用户在所述各个角度上说话的概率,确定所述第一语音信号对应的所述第一用户和所述第一角度,包括:
对于任一用户和任一角度,获取所述第一语音信号对应所述任一用户的概率、所述第一语音信号对应所述任一用户在所述任一角度上说话的概率和第一平滑因子的乘积,以及第二语音信号对应所述任一用户的概率、所述第二语音信号对应所述任一用户在所述任一角度上说话的概率和第二平滑因子的乘积;
对获取到的各个乘积求和,得到所述任一用户和所述任一角度对应的求和结果;
确定所述各个用户和所述各个角度对应的求和结果中的最大求和结果;
将所述最大求和结果对应的用户和角度分别作为所述第一用户和所述第一角度。


4.根据权利要求1所述的方法,其特征在于,所述将所述第一语音信号输入目标模型,输出所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率,包括:
将所述第一语音信号输入所述目标模型,由所述目标模型中的卷积层,对所述第一语音信号进行处理,得到所述第一语音信号的语音特征;
由所述目标模型中的长短期记忆LSTM层,对所述卷积层输出的所述第一语音信号的语音特征进行处理;
由所述目标模型中的第一全连接层和第二全连接层,对所述LSTM层输出的所述第一语音信号的语音特征进行处理,得到所述第一语音信号对应各个用户的分数和所述第一语音信号对应所述各个用户在各个角度上说话的分数;
由所述目标模型中的Softmax层,对所述第一全连接层和第二全连接层输出的分数进行处理,得到所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率。


5.根据权利要求4所述的方法,其特征在于,所述第一语音信号用复数向量表示,所述卷积层用于进行复数域的卷积操作,所述复数域的卷积操作表示如下:

W*x=(W0*x0-W1*x1)+i(W1*x0+W0*x1)
其中,*表示卷积操作,W=W0+iW1,表示复数卷积核矩阵,W0和W1分别表示实部矩阵和虚部矩阵,x=x0+ix1,表示被卷积的复数向量,x0和x1分别表示实部向量和虚部向量,i为虚数单位。


6.根据权利要求4所述的方法,其特征在于,所述目标模型中的卷积层后连接有归一化层和激活函数层,
所述由所述目标模型中的LSTM层,对所述卷积层输出的所述第一语音信号的语音特征进行处理,包括:
由所述目标模型中的所述归一化层和所述激活函数层,对所述卷积层输出的所述第一语音信号的语音特征进行处理;
由所述目标模型中的所述LSTM层,对所述激活函数层输出的所述第一语音信号的语音特征进行处理。


7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对于输入所述激活函数层的复数向量中的任一元素,当所述任一元素的模小于目标阈值时,所述任一元素的激活函数...

【专利技术属性】
技术研发人员:栾天祥陈孝良冯大航常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1