实时通话声纹降噪方法及电子设备和存储介质技术

技术编号:38470558 阅读:11 留言:0更新日期:2023-08-11 14:47
实时通话声纹降噪方法、电子设备和存储介质,其中,实时通话声纹降噪方法,包括:获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。从而使其输出的音频可以更好地保留说话人的音频,有效的抑制其他人声的干扰。有效的抑制其他人声的干扰。有效的抑制其他人声的干扰。

【技术实现步骤摘要】
实时通话声纹降噪方法及电子设备和存储介质


[0001]本申请实施例涉及语音处理
,特别是涉及一种实时通话声纹降噪方法及电子设备和存储介质。

技术介绍

[0002]声纹通话降噪顾名思义即是在通话降噪的技术上加上声纹信息,即使身处比较嘈杂的环境,或者是有多个干扰人讲话的复杂场景下都可以提取清晰的主讲人声音信息,过滤掉其他说话人的语音和背景噪声。该技术在实际生产生活中有非常广泛的应用范围。
[0003]现有技术中,声纹降噪方案包括注册阶段和测试阶段。
[0004]其中,注册阶段:主讲人先在安静场景根据用户界面(UI,User Interface)上的提示注册一段20

30s的音频,用来提取主讲人的声纹信息。由于在真实使用的过程中用户可能说话不太清晰,环境背景噪声比较大,还有注册说话人语速过快,录制的时间过短等都会影响主讲人的信息收集,进而就会影响后面算法的正常使用。为此,在注册阶段对音频的质量是否合格做了限制。具体的,语音的质量:采用语音活动检测(Voice Activity Detection,VAD)对注册音频进行检测,根据音频和背景算出注册音频的信噪比;字准:注册音频进行语音识别检测后将识别的文字和正确的文本进行校验;最后就是vad后的音频长度必须要满足一定的长度。达到这些条件后,才能正确注册声纹信息。
[0005]测试阶段:由于目前市面上大多数PC产品的收音往往不止一个麦克风,多个麦克风组成的麦克风阵列能够更好地对语音信号进行个性化增强。声纹降噪一般要求在笔记本正前方的主讲人进行增强,其他方向的语音信号都进行抑制,同方向的其他干扰他人的语音也要进行抑制,从而会用到以下技术。回声消除、麦克风阵列技术、声纹降噪技术和自动增益控制技术。
[0006]目前可以拿来体验的设备除了笔记本和手机外其他的产品种类较少且性能不好,其主要缺陷有对注册说话人的声音抑制,主讲人声音忽大忽小甚至出现丢字现象,主要原因是模型把主讲人的声音和干扰人混淆,都进行了抑制;以及对干扰人声抑制不完全,会出现音频的残留,甚至不能消掉干扰人声等。但是根据我们离线处理后的音频效果,发现我们的算法可以很好地保留注册说话人的音频,有效地抑制其他说话人的干扰。
[0007]声纹降噪和其他降噪同样也会面临主讲人消不干净或主讲人过度消除的问题,但是真实使用的过程中我们会尽可能保证主讲人的声音能够尽可能的保留,即使干扰人会存在一些残留。

技术实现思路

[0008]本专利技术实施例提供了一种实时通话声纹降噪方法以及装置,用于至少解决上述技术问题之一。
[0009]第一方面,本专利技术实施例提供了实时通话声纹降噪方法,包括:获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;将所述注册音频输入至与
预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。
[0010]第二方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术上述任一项实时通话声纹降噪方法。
[0011]第三方面,本专利技术实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本专利技术上述任一项实时通话声纹降噪方法。
[0012]第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项实时通话声纹降噪方法。
[0013]本申请的方法通过获取实时通话音频、当前说话人第一声纹特征向量与当前说话人注册音频,然后将注册音频输入至他同步训练的声纹特征提取网络获取第二声纹特征向量,再将实时通话音频输入至预训练降噪网络的编码器部分获取第三音频特征向量,最后将第一声纹特征向量、二声纹特征向量和第三音频特征向量进行拼接在输出至预训练降噪网络的其他部分处理,从而使其输出的音频可以更好地保留说话人的音频,有效的抑制其他人声的干扰。
附图说明
[0014]图1为本专利技术一实施例提供的一种实时通话声纹降噪方法的流程图;
[0015]图2为本专利技术一实施例提供的另一种实时通话声纹降噪方法的流程图;
[0016]图3为本专利技术一实施提供的现有技术的一个具体示例的说话人过度消除示意图;
[0017]图4为本专利技术一实施提供的现有技术的一个具体示例的干扰人未完全消除示意图;
[0018]图5为本专利技术一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪网络框架图;
[0019]图6为本专利技术一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪注册阶段流程框架图;
[0020]图7为本专利技术一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪测试阶段流程框架图;
[0021]图8本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0022]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]请参考图1,其示出了本专利技术一实施例提供的一种实时通话声纹降噪方法的流程图。
[0024]如图1所示,在步骤101中,获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;
[0025]在步骤102中,将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;
[0026]在步骤103中,将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;
[0027]在步骤104中,将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。
[0028]在本实施例中,对于步骤101,获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频,例如,在通话时通过设备获取实时的通话音频,以及获取提前准备好的第一声纹特征向量与注册音频,并且,所获取的第一声纹特征向量与注册音频都属于同一说话人。
[0029]然后,对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时通话声纹降噪方法,包括:获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。2.根据权利要求1所述的方法,其中,所述当前说话人的第一声纹特征向量通过以下方式获得:使用固定的说话人特征提取器对所述当前说话人的注册音频进行特征提取得到所述第一声纹特征向量。3.根据权利要求1所述的方法,其中,所述预训练降噪网络与所述声纹特征提取网络的同步训练方法包括:将带噪音频输入至所述预训练降噪网络的编码部分得到编码后的结果,其中,所述带噪音频具有对应的干净音频和与所述带噪音频属于同一说话人的注册音频;至少将所述注册音频经过所述声纹特征提取网络得到的声纹提取结果与所述编码后的结果进行拼接得到拼接后的结果;将所述拼接后的结果继续输入至所述预训练降噪网络的其他部分进行处理得到所述预训练降噪网络的输出;计算所述预训练降噪网络的输出和所述干净音频的损失,基于所述损失训练所述预训练降噪网络和所述声纹提取模型。4.根据权利要求3所述的方法,其中,所述至少将所述注册音频经过所述声纹特征提取网络得到的声纹提取结果与所述编码后的结果进行拼接得到拼接后的结果包括:将所述注册音频经过所述固定的说话人特征提取器得到的固定提取结果、所述注册音频经过所述声纹特征...

【专利技术属性】
技术研发人员:赵飞陈进周晨周强
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1