基于平凡发音的说话者识别方法、系统、存储介质及设备技术方案

技术编号:36814383 阅读:24 留言:0更新日期:2023-03-09 01:03
本发明专利技术公开了一种基于平凡发音的说话者识别方法、系统、存储介质及设备,方法包括:获得实时音频数据,并基于实时音频数据进行频谱特征提取,得到实时音频数据对应的频谱特征;将实时音频数据对应的频谱特征输入完成训练的UNET网络,生成实时音频数据对应的频谱遮罩,并基于频谱遮罩检测实时音频数据是否为平凡发音;若实时音频数据为平凡发音,利用频谱遮罩和频谱特征融合,得到实时音频数据对应的增强频谱;将实时音频数据对应的增强频谱输入完成训练的说话者嵌入层网络,获得实时音频数据对应的实时说话者嵌入层;将实时说话者嵌入层和注册说话者嵌入层进行比较,用以识别实时音频数据对应的说话者。音频数据对应的说话者。音频数据对应的说话者。

【技术实现步骤摘要】
基于平凡发音的说话者识别方法、系统、存储介质及设备


[0001]本申请涉及语音识别领域,尤其涉及一种基于平凡发音的说话者识别方法、系统、存储介质及设备。

技术介绍

[0002]平凡发音,是指在口语对话中时常出现的、受说话者主观控制较弱的发音。平凡发音不同于语义信息,其没有实质语义内容,因此在语音识别技术中,通常都会将平凡发音视作无意义的词进行过滤。
[0003]而本申请人经研究认为,平凡发音虽然没有实质语义内容,但其仍旧蕴含了说话者丰富的声音特性,可以据此识别出所属说话者。例如,“嗯”、“啊”等平凡发音属于普通语音,同时兼顾上述平凡发音的特性,十分适用于识别说话者。此外,平凡发音占据的数据量很小,处理效率会远高于其他实质语义内容。
[0004]但是,平凡发音在具有上述优势的同时,也兼顾发音时长短、易受环境噪声影响等劣势,从而使其在识别稳定性方面仍有欠缺。

技术实现思路

[0005]本专利技术提供了一种基于平凡发音的说话者识别方法、系统、存储介质及设备,以解决或者部分解决平凡发音在识别稳定性方面具有欠缺的技术问题。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于平凡发音的说话者识别方法,其特征在于,所述方法包括:获得实时音频数据,并基于所述实时音频数据进行频谱特征提取,得到所述实时音频数据对应的频谱特征;将所述实时音频数据对应的频谱特征输入完成训练的UNET网络,生成所述实时音频数据对应的频谱遮罩,并基于所述频谱遮罩检测所述实时音频数据是否为平凡发音;若所述实时音频数据为所述平凡发音,利用所述频谱遮罩和所述频谱特征融合,得到所述实时音频数据对应的增强频谱;将所述实时音频数据对应的增强频谱输入完成训练的说话者嵌入层网络,获得所述实时音频数据对应的实时说话者嵌入层;将所述实时说话者嵌入层和注册说话者嵌入层进行比较,用以识别所述实时音频数据对应的说话者。2.如权利要求1所述的方法,其特征在于,所述UNET网络的网络结构包括:两个以上自适应卷积模块、三个以上降采样模块、三个以上上采样模块和S型函数;其中,每个所述自适应卷积模块包括两个以上自适应二维卷积层,每个所述自适应二维卷积层后面增加批标准化BN层和线性整流单元ReLU函数;每个所述降采样模块包括一个以上所述自适应卷积模块和一个以上平均池化层;每个所述上采样模块包括一个以上自适应二维转置卷积层、一个以上通道连接层和一个以上所述自适应卷积模块。3.如权利要求2所述的方法,其特征在于,所述自适应二维卷积层的自适应卷积核同时参考输入数据的时域信息和频域信息生成;所述自适应二维转置卷积层的自适应卷积核同时参考所述输入数据的时域信息和频域信息生成。4.如权利要求3所述的方法,其特征在于,所述自适应二维卷积层和所述自适应二维转置卷积层的自适应卷积核均按照下述步骤生成:将所述输入数据分别在时域维度和所述频域维度进行转换,再合并为用于生成所述自适应卷积核的自适应数据;其中,所述自适应数据的尺寸包括:输入通道数,自适应卷积核频域维度大小,自适应卷积核时域维度大小;构建可训练参数;其中,所述可训练参数的尺寸包括:输出通道数,输入通道数,自适应卷积核频域维度大小,自适应卷积核时域维度大小;将自适应数据沿输出通道数扩展至和所述可训练参数相同尺寸,并与所述可训练参数点乘,获得所述自适应卷积核。5.如权利要求4所述的方法,其特征在于,所述将所述输入数据分别在时域维度和所述频域维度进行转换,再合并为用于生成所述自适应卷积核的自适应数据,具体包括:将所述输入数据分别通过时域平均池化和频域平均池化,得到不同尺寸的第一时域输出数据和第一频域输出数据;将所述第一时域输出数据和所述第一频域输出数据各自进行一维卷积,得到不同尺寸的第二时域输出数据和第二频域输出数据;其中,所述第二时域输出数据的尺寸包括输入通道数和所述自适应卷积核频域维度,所述第二频域输出数据的尺寸包括输入通道数和所述自适应卷积核时域维度;
将所述第二时域输出数据沿频域轴扩展,并将所述第二频域输出数据沿时间轴扩展,使所述第二时域输出数据和所述第二频域输出数据尺寸相同;将所述第二时域输出数据和所述第二频域输出数据相加,得到所述自适应数据。6.如权利要求2

5任一权项所述的方法,其特征在于,所述UNET网络按照下述方式进行训练:获得第一数据集,所述第一数据集包括:源语音数据X
source
、流式标签Y

hmm
和目标语音数据X
target
;基于所述第一数据集进行频谱特征提取,得到所述源语音数据X
source
对应的输入频谱S
source
和所述目标语音数据X
target
对应的目标频谱S
target
;基于所述数据集帧级别标签获取,得到所述流式标签Y

hmm
对应的帧级别标签Y
hmm
;计算损失函数,所述损失...

【专利技术属性】
技术研发人员:李郡王啸尚德龙周玉梅
申请(专利权)人:中科南京智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1