说话人相关的端到端语音端点检测方法和装置制造方法及图纸

技术编号:21895755 阅读:37 留言:0更新日期:2019-08-17 16:02
本发明专利技术公开说话人相关的端到端语音端点检测方法和装置,其中,一种说话人相关的端到端语音端点检测方法,包括:提取待检测语音的声学特征;将所述声学特征与i‑vector特征进行拼接以作为新的输入特征;将新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的检测结果。本申请的方法和装置通过在传统的语音端点检测系统的训练过程中加入了说话人相关的信息(i‑vector),并将深度神经网络(DNN)和长短时记忆神经网络(LSTM)应用到语音端点检测中,实现了端到端的说话人相关的端点检测系统,通过单个网络就可以直接输出目标说话人的语音部分,去除音频中其他的静音段和非目标说话人的语音。

Speaker-related end-to-end voice endpoint detection method and device

【技术实现步骤摘要】
说话人相关的端到端语音端点检测方法和装置
本专利技术属于语音识别的
,尤其涉及端到端语音端点方法和装置。
技术介绍
相关技术中,语音端点检测(VoiceActivityDetection,VAD),是语音识别,说话人识别等任务非常重要的预处理步骤。一个基础的语音端点检测系统的目标是要去除音频中的静音部分,而更加通用的检测系统可以去掉音频中所有不相关的部分,包括噪声和非目标说话人的语音。现有的方案主要是针对有背景人声干扰的场景(例如餐厅等),提出了一种鲁棒的语音端点系统,可以提取目标说话人的语音部分。相关技术所提出的系统是基于高斯混合模型(GMM)的,并且在语音和噪声分别建模的基础上,使用了一个额外的GMM模型对目标说话人进行建模,即用三个GMM来达到提取目标说话人语音部分的目标。专利技术人在实现本申请的过程中发现,现有的方案至少存在以下缺陷:其余非目标说话人的声音是被看作背景噪声的(目标说话人的能量明显高于其余说话人),并不适用于多人对话的场景。其次在面对复杂环境时,这种技术的检测准确率会有明显降低。
技术实现思路
本专利技术实施例提供一种说话人相关的端到端语音端点方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种说话人相关的端到端语音端点检测方法,包括:提取待检测语音的声学特征;将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征;将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。第二方面,本专利技术实施例提供一种说话人相关的端到端语音端点检测装置,包括:提取模块,配置为提取待检测语音的声学特征;拼接模块,配置为将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征;以及输出模块,配置为将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的说话人相关的端到端语音端点检测方法的步骤。第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的说话人相关的端到端语音端点检测方法的步骤。本申请的方法和装置提供的方案对不同说话人提取相应的区分性特征,然后将该特征加入到语音端点检测系统中,利用深度学习的方法提高了噪声环境下语音端点检测的鲁棒性。进一步地,本申请的方案不仅针对对话场景下的语音端点检测提出了新的方案,更展现了使用说话人相关的特征来提升性能的各种可能。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种说话人相关的端到端语音端点检测方法的流程图;图2为本专利技术一实施例提供的基于LSTM的与说话人相关的VAD;图3为本专利技术一实施例提供的一种特征合并的方法;图4分别为本专利技术一实施例提供的不同的系统测试用例的预测结果;图5为本专利技术一实施例提供的一种说话人相关的端到端语音端点检测装置的框图;图6是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的说话人相关的端到端语音端点检测方法一实施例的流程图,本实施例的说话人相关的端到端语音端点检测方法可以适用于具备语言模型的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备说话人检测功能的智能终端等。如图1所示,在步骤101中,提取待检测语音的声学特征;在步骤102中,将声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征;在步骤103中,将新的输入特征输入至神经网络中进行训练并输出待检测语音是否为目标说话人语音的预测结果。在本实施例中,对于步骤101,说话人相关的端到端语音端点检测装置首先提取待检测语音的声学特征,然后在步骤102中,将提取的声学特征和同样是从待检测语音中提取的能够表征其身份的i-vector特征进行拼接,将拼接后的特征作为新的输入特征,由于i-vector特征携带有说话人信息,因此拼接之后能够更好地对说话人进行检测。之后,对于步骤103,将该新的输入特征输入至神经网络中对该神经网络进行训练并输出待检测语音是否为预测说话人语音的预测结果。本实施例的方案由于在建模过程中加入了说话人相关的信息i-vector特征,同时这是一个在线的检测系统,系统延迟很低。在一些可选的实施例中,神经网络为深度神经网络,将新的输入特征输入至神经网络中进行训练并输出待检测语音是否为目标说话人语音的预测结果包括:将新的输入特征中的每一帧数据分别输入至深度神经网络;分别输出每一帧数据是否是目标说话人语音的检测结果。从而可以对每一帧数据是否为目标说话人语音进行检测。在一些可选的实施例中,神经网络为长短时记忆循环神经网络,将新的输入特征输入至神经网络中进行训练并输出待检测语音是否为目标说话人语音的预测结果包括:将新的输入特征对应的整个句子数据输入至深度神经网络;输出每一帧数据是否是目标说话人语音的预测结果。从而可以对整个句子数据是否为目标说话人语音进行检测。在一些可选的实施例中,在将新的输入特征输入至神经网络中进行训练并输出待检测语音是否为目标说话人语音的预测结果之前,方法还包括:将新的输入特征中相邻的n个语音帧合并然后取平均值作为输入,同时把每一个预测输出对应的预测结果重复n次以形成最终输出。从而,通过在特征输入部分会把相邻的n个语音帧以取平均值的方式进行合并,得到的新的特征在长度上是原来的n分之一,这样做的目的是加强语音之间的连续性。然后在模型输出预测值之后,再把每一个预测值重复n次,这样长度就和最初输入的特征长度一致,保证每一帧都有对应的预测输出。上述方法用在说话人相关的语音端点检测中,可以解决语音和非语音之间的错误转换问题和“碎片化问题”。在一些可选的实施例中,将声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征包括:利用预训练的i-vector提取器从待检测语音中提取目标说话人的i-vector特征;将帧级别的声学特征和i-vector特征连接起来作为新的输入。从而实现对i-vector特征的提取和拼接,使其更好地帮助识别目标说话人的语音。下面通过对专利技术人在实现本专利技术的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的本文档来自技高网...

【技术保护点】
1.一种说话人相关的端到端语音端点检测方法,包括:提取待检测语音的声学特征;将所述声学特征与目标说话人的i‑vector特征进行拼接以作为新的输入特征;将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。

【技术特征摘要】
1.一种说话人相关的端到端语音端点检测方法,包括:提取待检测语音的声学特征;将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征;将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。2.根据权利要求1所述的方法,其中,所述神经网络为深度神经网络,所述将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果包括:将所述新的输入特征中的每一帧数据分别输入至深度神经网络;分别输出所述每一帧数据是否是目标说话人语音的检测结果。3.根据权利要求1所述的方法,其中,所述神经网络为长短时记忆循环神经网络,所述将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果包括:将所述新的输入特征对应的整个句子数据输入至深度神经网络;输出所述每一帧数据是否是目标说话人语音的检测结果。4.根据权利要求1所述的方法,其中,在所述将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果之前,所述方法还包括:将所述新的输入特征中相邻的n个语音帧合并然后取平均值。5.根据权利要求4所述的方法,其中,在所述输出所述待检测语音是否为目标说话人语音的预测结果之后,所述方法还包括:把每一个语音帧对应的预测结果重复n次以形成...

【专利技术属性】
技术研发人员:俞凯钱彦旻陈烨斐王帅
申请(专利权)人:苏州思必驰信息科技有限公司上海交通大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1