一种基于时域的第三者插话语音过滤方法技术

技术编号:37958150 阅读:9 留言:0更新日期:2023-06-30 09:32
本发明专利技术提供一种基于时域的第三者插话语音过滤方法,该方法包括:用户将语音录入第三者插话语音过滤系统;第三者插话语音过滤系统提取用户声音的声纹特征向量并储存在第三者插话语音过滤系统数据库中;第三者插话语音过滤系统接收用户语音和不属于用户的语音结合的混合语音;第三者插话语音过滤系统根据用户声纹特征过滤混合语音中不属于用户的语音得到纯净的用户语音。本发明专利技术过滤效果上比SpEx+模型更好,能够满足智能语音客服系统过滤性能及推理要求。及推理要求。及推理要求。

【技术实现步骤摘要】
一种基于时域的第三者插话语音过滤方法


[0001]本专利技术涉及人工智能
,具体涉及一种基于时域的第三者插话语音过滤方法。

技术介绍

[0002]目前的语音过滤主流模型,如SpEx+模型,其推理速度快,但是模型过滤性能还不佳。DPRNN

Spe

IRA模型基于SpEx+改进,过滤性能得到一定幅度提升,但是由于BLSTM结构的引入,其推理速度太慢。目前,在智能语音客服场景中,要求第三者插话语音过滤推理速度快,过滤效果好。因此已有技术很难在智能语音客服系统上实施应用。本专利技术结合改进后的SpEx+模型,引入迭代优化机制IRA,提出一种基于时域的第三者插话语音过滤方法,能够满足智能语音客服系统过滤性能及推理要求。该方法结合SpEx+模型框架,在语音过滤模块采用TCN作为基础模块提取语音特征,相比BLSTM能够提升推理速度;对声纹分类器进行改进,采用时延神经网络(time delay nerual network,TDNN)作为基础模块对每个隐层的输出都在时域进行扩展,相比原SpEx+模型声纹分类器中采用的Resnet网络结构,声纹分类器提取目标人声纹特征性能得到进一步优化;最后采用迭代优化机制IRA,使得声纹分类器和语音过滤模块不断互相优化和更新,增强提取的目标语音过滤效果。因此,本专利技术提出的第三者插话语音过滤方法在过滤效果上比SpEx+模型更好,在推理速度上比DPRNN

Spe

IRA模型更快,能够满足智能语音客服系统过滤性能及推理要求。

技术实现思路

[0003]本专利技术的目的是提供一种基于时域的第三者插话语音过滤方法,该方法过滤效果上比SpEx+模型更好,能够满足智能语音客服系统过滤性能及推理要求。
[0004]一种基于时域的第三者插话语音过滤方法,包括:
[0005]用户将语音录入第三者插话语音过滤系统;
[0006]第三者插话语音过滤系统提取用户声音的声纹特征向量并储存在第三者插话语音过滤系统数据库中;
[0007]第三者插话语音过滤系统接收用户语音和不属于用户的语音结合的混合语音;
[0008]第三者插话语音过滤系统根据用户声纹特征过滤混合语音中不属于用户的语音得到纯净的用户语音。
[0009]第三者插话语音过滤系统提取用户声音的声纹特征向量并储存在第三者插话语音过滤系统数据库中包括:
[0010]第三者插话语音过滤系统将用户录入的语音的原始时域信号转化为高维语音信号;
[0011]第三者插话语音过滤系统将高维语音信号进行特征提取,获得用户声纹特征向量;
[0012]第三者插话语音过滤系统将用户声纹特征向量储存在第三者插话语音过滤系统
数据库中。
[0013]第三者插话语音过滤系统将用户录入的语音的原始时域信号转化为高维语音信号包括:
[0014]采用一个一维卷积网络,缩减模型尺寸,卷积步长设定为卷积核大小的一半,设用户语音原始时域信号x经过编码器输出的特征为F
encoder

[0015]F
encoder
=Conv
K12C256
(x),其中Conv
K12C256
(*)表示卷积核大小为12,通道数为256的一维卷积网络;
[0016]混合语音x
mix
和用户语音x
aux
经过编码器得到高维语音信号表示F
mix
和F
aux

[0017]第三者插话语音过滤系统将高维语音信号进行特征提取,获得用户声纹特征向量包括:
[0018]声纹特征提取模型包括:3个时延神经网络TDNN、1个一维卷积网络1D CNN和两个全连接层Linear;
[0019]TDNN是由一个空洞卷积网络和激活函数构成,F
aux
经过三个串联的TDNN和一个一维卷积提取浅层特征,定义为
[0020]F
Sh allow
=Conv
K1C1500
(TDNN
K3D3C512
(TDNN
K3D2C512
(TDNN
K5DiC512
(F
aux
))))
[0021]其中,TDNN
KxDyCz
(
·
)表示模块中空洞卷积的卷积核K的大小为x,空洞D的大小为y,通道数C为z;
[0022]计算具有时序联系的浅层特征F
sh allow
的统计特征,即对时序维度分别求均值和标准差,再将通道数为C的均值和标准差进行特征拼接,组成2
×
C维的融合特征,表示为
[0023]F
fuse
=Cat[Mean(F
Sh allow
),Std(F
sh allow
)][0024]其中,Cat[
·
]表示对F
sh allow
的统计特征拼接,Mean(
·
)表示求均值函数,Std(
·
)表示求标准差函数;
[0025]通过一个全连接层整合融合特征F
fuse
生成声纹特征F
voiceprint,
表示为F
voiceprint
=Linear
256
(F
fuse
)
[0026]其中,Linear
x
表示输出维度为x的全连接层;
[0027]将用户声纹特征映射成与类别数num一致的维度,表示样本属于各个类别的概率,表示为
[0028]Class=Linear
num
(F
voiceprint
)
[0029]声纹分类网络通过交叉熵损失函数计算推理结果偏差,然后反向传播优化模型参数,交叉熵损失表示为
[0030][0031]其中,N表示样本数量,num表示类别数量,y
ic
表示一个符号函数,当样本i真实类别为c时取1,否则取0;p
ic
表示样本i输于类别c的概率。
[0032]第三者插话语音过滤系统根据用户声纹特征过滤混合语音中不属于用户的语音得到纯净的用户语音包括:
[0033]将声纹特征F
voiceprint
与混合语音特征F
mix
进行拼接组成维度大小为(Seq,)的特征图,Seq表示混合音频的序列长度,表示混合语音经过编码
器转换后的特征通道数,表示声纹特征的维数,
[0034]将维度为的声纹特征复制Seq次后变成维度为(Seq,)的声纹特征F
voiceprint_copy

[0035]将F
mix
和F
voiceprint_copy...

【技术保护点】

【技术特征摘要】
1.一种基于时域的第三者插话语音过滤方法,其特征在于,包括:用户将语音录入第三者插话语音过滤系统;第三者插话语音过滤系统提取用户声音的声纹特征向量并储存在第三者插话语音过滤系统数据库中;第三者插话语音过滤系统接收用户语音和不属于用户的语音结合的混合语音;第三者插话语音过滤系统根据用户声纹特征过滤混合语音中不属于用户的语音得到纯净的用户语音。2.根据权利要求1所述的一种基于时域的第三者插话语音过滤方法,其特征在于,所述第三者插话语音过滤系统提取用户声音的声纹特征向量并储存在第三者插话语音过滤系统数据库中包括:第三者插话语音过滤系统将用户录入的语音的原始时域信号转化为高维语音信号;第三者插话语音过滤系统将高维语音信号进行特征提取,获得用户声纹特征向量;第三者插话语音过滤系统将用户声纹特征向量储存在第三者插话语音过滤系统数据库中。3.根据权利要求2所述的一种基于时域的第三者插话语音过滤方法,其特征在于,所述第三者插话语音过滤系统将用户录入的语音的原始时域信号转化为高维语音信号包括:采用一个一维卷积网络,缩减模型尺寸,卷积步长设定为卷积核大小的一半,设用户语音原始时域信号x经过编码器输出的特征为F
encoder
;F
encoder
=Conv
K12C256
(x),其中Conv
K12C256
(*)表示卷积核大小为12,通道数为256的一维卷积网络;混合语音x
mix
和用户语音x
aux
经过编码器得到高维语音信号表示F
mix
和F
aux
。4.根据权利要求2所述的一种基于时域的第三者插话语音过滤方法,其特征在于,所述第三者插话语音过滤系统将高维语音信号进行特征提取,获得用户声纹特征向量包括:声纹特征提取模型包括:3个时延神经网络TDNN、1个一维卷积网络1D CNN和两个全连接层Linear;TDNN是由一个空洞卷积网络和激活函数构成,F
aux
经过三个串联的TDNN和一个一维卷积提取浅层特征,定义为F
Sh allow
=Conv
K1C1500
(TDNN
K3D3C512
(TDNN
K302C512
(TDNN
K5D1C512
(F
aux
))))其中,TDNN
KxDyCz
(
·
)表示模块中空洞卷积的卷积核K的大小为x,空洞D的大小为y,通道数C为z;计算具有时序联系的浅层特征F
Sh allow
的统计特征,即对时序维度分别求均值和标准差,再将通道数为C的均值和标准差进行特征拼接,组成2
×
C维的融合特征,表示为F
fuse
=Cat[Mean(F
Sh allow
),Std(F
Sh allow
)]其中,Cat[
·
]表示对F
Sh allow
的统计特征拼接,Mean(
·
)表示求均值函数,Std(
·
)表示求标准差函数;通过一个全连接层整合融合特征F
fuse
生成声纹特征F
voiceprint
,表示为F
voiceprint
=Linear
256
(F
fuse
)其中,Linear
x
表示输出维度为x的全连接层;将用户声纹特征映射成与类别数num一致的维度,表示样本属于各个类别的概率,表示
为Class=Linear
num
(F
voiceprint
)声纹分类网络通过交叉熵损失函数计算推理结果偏差,然后反向传播优化模型参数,交叉熵损失表示为其中,N表示样本数量,num表示类别数量,y
ic
表示一个符号函数,当样本i真实类别为c时取1,否则取0;p
ic
表示样本i输于类别c的概率。5.根据权利要求1所述的一种基于时域的第三者插话语音过滤方法,其特征在于,所述第三者插话语音过滤系统根据用户声纹特征过滤混合语音中不属于用户的语音得到纯净的用户语音包括:将声纹特征F
voiceprint
与混合语音特征F
mix
进行拼接组成维度大小为的特征图,Seq表示混合音频的序列...

【专利技术属性】
技术研发人员:肖红黄冠儒黄子豪马宗鑫姜文超
申请(专利权)人:广州凡沙智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1