语音处理方法、电子设备和存储介质技术

技术编号：34397481 阅读：10 留言：0更新日期：2022-08-03 21:33

本发明专利技术公开一种语音处理方法、电子设备和存储介质。在该方法中，获取针对多说话人场景的混合音频数据；将混合音频数据输入至语音处理模型，使得语音处理模型验证混合音频数据是否为与目标说话人相关的音频数据；其中，语音处理模型的池化层采用注意力统计池化层，注意力统计池化层用于将注册说话人嵌入和混合音频数据所对应的隐藏层表征序列转换为固定维度的表征，以及注册说话人嵌入为语音处理模型根据目标说话人的注册语料而确定的身份特征信息。由此，语音处理模型采用基于目标说话人的注册语料的注意力统计池化层，能够实现提取特定说话人信息，而无需添加多余的语音分离网络，降低了系统冗余度，且提高了系统计算效率。且提高了系统计算效率。且提高了系统计算效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、电子设备和存储介质

[0001]本专利技术属于互联网
，尤其涉及一种语音处理方法、电子设备和存储介质。

技术介绍

[0002]随着语音技术的不断发展，一些厂商已经能够实现从较嘈杂的语音环境中较好地提取到说话人的语音音频，从而较佳地完成相应的语音任务操作。目前，业内的相关技术研究人员致力于在更复杂的场景中构建鲁棒的说话人验证系统，并且研究了多种技术以去除人声以外的干扰信息，如数据增强、在频谱添加随机扰动、对抗学习等。
[0003]但是，这些技术多是为了去除人声以外的干扰信息，如环境噪音等。然而，当说话人的声音被其他人的声音干扰时，上述系统通常不能选择性地去除这种干扰的声音。
[0004]在具有多说话人的音频识别任务下，为了实现对特定目标人的语音识别，需要去除其他人声的干扰，许多研究者提出了语音分离技术，通过引入语音分离网络来提前分离目标说话人的语音，并将单人语音输入到说话人识别系统中。
[0005]但是，在说话人验证任务中利用语音分离网络会使得系统变得尤为复杂和冗余，造成资源浪费和运算缓慢的问题。
[0006]针对上述问题，目前业界暂未提供较佳的解决方案。

技术实现思路

[0007]本专利技术实施例提供一种语音处理方法、电子设备和存储介质，用于至少解决上述技术问题之一。
[0008]第一方面，本专利技术实施例提供一种语音处理方法，包括：获取针对多说话人场景的混合音频数据；将所述混合音频数据输入至语音处理模型，使得所述语音处理模型验证所述混合音频...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，包括：获取针对多说话人场景的混合音频数据；将所述混合音频数据输入至语音处理模型，使得所述语音处理模型验证所述混合音频数据是否为与目标说话人相关的音频数据；其中，所述语音处理模型的池化层采用注意力统计池化层，所述注意力统计池化层用于将注册说话人嵌入和所述混合音频数据所对应的隐藏层表征序列转换为固定维度的表征，以及所述注册说话人嵌入为所述语音处理模型根据所述目标说话人的注册语料而确定的身份特征信息。2.根据权利要求1所述的方法，其中，所述将所述混合音频数据输入至语音处理模型，使得所述语音处理模型验证所述混合音频数据是否为与目标说话人相关的音频数据，包括：检测所述语音处理模型的语音处理模式；当所述语音处理模型处于注册语音感知模式时，所述注意力统计池化层用于将注册说话人嵌入和所述混合音频数据所对应的隐藏层表征序列转换为固定维度的表征；以及当所述语音处理模型处于注册语音忽略模式时，所述注意力统计池化层用于仅将所述隐藏层表征序列转换为固定维度的表征。3.根据权利要求2所述的方法，其中，所述注册说话人嵌入为所述语音处理模型在注册语音忽略模式下依据所述目标说话人的注册语料预先进行训练而确定的。4.根据权利要求1所述的方法，其中，所述语音处理模型在注册语音感知模式下时所对应的训练样本包含正向测试语料、反向测试语料、注册语料和所述注册说话人嵌入；其中，所述正向测试音频包含所述目标说话人和至少一个其他说话人的音频信息，并且所述正向测试语料与所述注册语料具有相同的分类标签；以及所述反向测试语料包含除所述目标说话人之外的至少一个其他说话人的音频信息，并且所述反向测试语料与所述注册语料的分类标签不同。5.根据权利要求1所述的方法，其中，所述语音处理模型包括特征提取层、所述注意力统计池化层和嵌入转换层，所述特征提取层用于确定输入的所述混合音频数据所对应的隐藏层表征序列，以及所述转...

【专利技术属性】
技术研发人员：钱彦旻，张乐莹，陈正阳，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人