音频信号处理方法、装置、设备及存储介质制造方法及图纸

技术编号：26973669 阅读：52 留言：0更新日期：2021-01-06 00:07

本发明专利技术实施例提供一种音频信号处理方法、装置、设备及存储介质，该方法包括：首先，在已唤醒语音端点检测VAD的情况下，确定接收到的音频信息中的语音特征；其次，识别已播放的语音合成音频是否包括语音特征；然后，在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。由此，解决了设备端“自己跟自己对话”的问题，提高智能语音交流的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
音频信号处理方法、装置、设备及存储介质
本专利技术是涉及语音处理
，尤其涉及一种音频信号处理方法、装置、设备及存储介质。
技术介绍
随着人工智能技术和计算机的飞速发展，智能语音对话被广泛的开发和利用，人与设备的智能语音交流受到广泛关注。为了实现设备端实时响应人类声音语言，设备端(例如：智能音箱)通过语音端点检测(VoiceActivityDetection，VAD)确定是否对接收到的音频进行响应。目前，现行的语音端点检测在应用中，可能会出现设备端在播放音频的同时，接收设备端自身播放的音频，并将接收到的正在播放的音频发送至服务端，服务端将会向设备端重复反馈，由此，设备端和服务端将陷入循环。例如：设备端的播放元件正在播放“您好，很高兴认识你”，设备端的接收元件接收到了正在播放的“您好，很高兴认识你”，并将该音频发送至服务端，服务端会对其循环应答，从而出现设备端“自己跟自己对话”的可能性，影响人与设备端的智能语音交流。
技术实现思路
有鉴于此，本专利技术一个或多个实施例描述了一种音频信号处理的方法、装置、...

【技术保护点】
1.一种音频信号处理方法，其中，包括：/n在已唤醒语音端点检测VAD的情况下，确定接收到的音频信息中的语音特征；/n识别已播放的语音合成音频是否包括所述语音特征；/n在所述语音合成音频包括所述语音特征的情况下，确定所述语音特征为错误唤醒所述VAD。/n

【技术特征摘要】
1.一种音频信号处理方法，其中，包括：
在已唤醒语音端点检测VAD的情况下，确定接收到的音频信息中的语音特征；
识别已播放的语音合成音频是否包括所述语音特征；
在所述语音合成音频包括所述语音特征的情况下，确定所述语音特征为错误唤醒所述VAD。

2.根据权利要求1所述的方法，其中，还包括：
对所述音频信息进行标记，得到标记后的音频信息；
将所述标记后的音频信息作为VAD模型的训练负样本，对所述VAD模型进行训练，以确定训练之后的VAD模型。

3.根据权利要求2所述的方法，其中，所述确定接收到的音频信息中的语音特征，包括：
根据音频能量将所述语音特征划分为已播放音频的回音特征、噪音特征、杂音特征和静音特征。

4.根据权利要求3所述的方法，其中，将所述标记后的音频信息作为VAD模型的训练负样本，包括：
分别对划分之后的已播放音频的回音特征、噪音特征、杂音特征和静音特征进行标记；
将标记后的已播放音频的回音特征、噪音特征、杂音特征和静音特征作为所述VAD模型的训练负样本。

5.根据权利要求3所述的方法，其中，还包括：
在所述已播放的语音合成音频的声纹特征和所述音频信息的声纹特征相似度高于预设阈值的情况下，将所述语音特征确定为已播放音频的回音特征。
...

【专利技术属性】
技术研发人员：徐涛，曹元斌，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人