说话人相关的端到端语音端点检测方法和装置制造方法及图纸

技术编号：21895755 阅读：37 留言：0更新日期：2019-08-17 16:02

本发明专利技术公开说话人相关的端到端语音端点检测方法和装置，其中，一种说话人相关的端到端语音端点检测方法，包括：提取待检测语音的声学特征；将所述声学特征与i‑vector特征进行拼接以作为新的输入特征；将新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的检测结果。本申请的方法和装置通过在传统的语音端点检测系统的训练过程中加入了说话人相关的信息(i‑vector)，并将深度神经网络(DNN)和长短时记忆神经网络(LSTM)应用到语音端点检测中，实现了端到端的说话人相关的端点检测系统，通过单个网络就可以直接输出目标说话人的语音部分，去除音频中其他的静音段和非目标说话人的语音。

Speaker-related end-to-end voice endpoint detection method and device

全部详细技术资料下载

【技术实现步骤摘要】
说话人相关的端到端语音端点检测方法和装置
本专利技术属于语音识别的
，尤其涉及端到端语音端点方法和装置。
技术介绍
相关技术中，语音端点检测(VoiceActivityDetection,VAD)，是语音识别，说话人识别等任务非常重要的预处理步骤。一个基础的语音端点检测系统的目标是要去除音频中的静音部分，而更加通用的检测系统可以去掉音频中所有不相关的部分，包括噪声和非目标说话人的语音。现有的方案主要是针对有背景人声干扰的场景(例如餐厅等)，提出了一种鲁棒的语音端点系统，可以提取目标说话人的语音部分。相关技术所提出的系统是基于高斯混合模型(GMM)的，并且在语音和噪声分别建模的基础上，使用了一个额外的GMM模型对目标说话人进行建模，即用三个GMM来达到提取目标说话人语音部分的目标。专利技术人在实现本申请的过程中发现，现有的方案至少存在以下缺陷：其余非目标说话人的声音是被看作背景噪声的(目标说话人的能量明显高于其余说话人)，并不适用于多人对话的场景。其次在面对复杂环境时，这种技术的检测准确率会有明显降低。
技术实现思路
本专利技术实施例提供一种说话人相关的端到端语音端点方法和装置，用于至少解决上述技术问题之一。第一方面，本专利技术实施例提供一种说话人相关的端到端语音端点检测方法，包括：提取待检测语音的声学特征；将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征；将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。第二方面，本专利技术实施例提供一种说话人相关的端到端语音端点检测装置，包括：提取模...

【技术保护点】
1.一种说话人相关的端到端语音端点检测方法，包括：提取待检测语音的声学特征；将所述声学特征与目标说话人的i‑vector特征进行拼接以作为新的输入特征；将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。

【技术特征摘要】
1.一种说话人相关的端到端语音端点检测方法，包括：提取待检测语音的声学特征；将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征；将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。2.根据权利要求1所述的方法，其中，所述神经网络为深度神经网络，所述将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果包括：将所述新的输入特征中的每一帧数据分别输入至深度神经网络；分别输出所述每一帧数据是否是目标说话人语音的检测结果。3.根据权利要求1所述的方法，其中，所述神经网络为长短时记忆循环神经网络，所述将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果包括：将所述新的输入特征对应的整个句子数据输入至深度神经网络；输出所述每一帧数据是否是目标说话人语音的检测结果。4.根据权利要求1所述的方法，其中，在所述将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果之前，所述方法还包括：将所述新的输入特征中相邻的n个语音帧合并然后取平均值。5.根据权利要求4所述的方法，其中，在所述输出所述待检测语音是否为目标说话人语音的预测结果之后，所述方法还包括：把每一个语音帧对应的预测结果重复n次以形成...

【专利技术属性】
技术研发人员：俞凯，钱彦旻，陈烨斐，王帅，
申请(专利权)人：苏州思必驰信息科技有限公司，上海交通大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人