基于数据集难度的说话人嵌入层模型训练方法、介质和设备技术

技术编号:40196685 阅读:24 留言:0更新日期:2024-01-27 00:00
本发明专利技术公开基于数据集难度的说话人嵌入层模型训练方法、介质和设备,利用基于数据集难度的损失函数进行训练,获得对语音和平凡发音识别准确率高的训练后说话人嵌入层模型,也就是完成训练的说话人嵌入层模型;采集说话人的注册音频并进行频谱特征提取,所述注册音频的频谱通过所述训练后说话人嵌入层模型,获得注册说话人嵌入层;获得实时音频数据,确认其是否为注册说话人的音频。本说话人嵌入层模型训练方法是利用基于数据集难度的损失函数进行训练的,每次训练后均能够更新语音和平凡发音数据集参与训练的权重,有利于提升说话人嵌入层模型在语音和平凡发音数据集上的准确率。

【技术实现步骤摘要】

本专利技术涉及到智能语音识别,具体涉及到一种基于数据集难度的说话人嵌入层模型训练方法、介质和设备


技术介绍

1、说话人识别是一种生物识别技术,与指纹识别、面部识别等方法相比,具有非接触的特性,在实际应用中有独特的优势。

2、平凡发音是指在口语对话中时常出现的、受说话人主观控制较弱的发音,它们基本不含有任何语义内容,但却蕴含着丰富的说话人信息,比如人们的咳嗽声、笑声、打电话常用的“喂”声、表示肯定的“嗯”声,以及清嗓子的声音等,适合用于特定场景下的说话人识别任务,比如在司法鉴定时,无法获得完整语句的情况等。尽管平凡发音能够体现一些说话人声道的物理特性,但由于其发音时间短,以及语音内容少等特性,因此使用普通语音构建的说话人识别系统,在实际部署时输入平凡发音会导致识别率降低。

3、常用的解决方法为同时使用语音和平凡发音数据集训练说话人识别模型,但由于语音数据的长度及数量远多于平凡发音,因此说话人识别模型将偏向于语音,对平凡发音的识别效果依然有限。


技术实现思路

1、本专利技术的目的是针对现本文档来自技高网...

【技术保护点】

1.基于数据集难度的说话人嵌入层模型训练方法,其特征在于,包括:

2.根据权利要求1所述的基于数据集难度的说话人嵌入层模型训练方法,其特征在于,完成训练的说话人嵌入层模型获取方式如下:

3.根据权利要求1或者2所述的基于数据集难度的说话人嵌入层模型训练方法,其特征在于,说话人数目应超过1000人,说话人性别比例均衡,且无静音段音频。

4.根据权利要求2所述的基于数据集难度的说话人嵌入层模型训练方法,其特征在于,所述说话人嵌入层模型选为ResNet34,所述说话人分类层使用全连接层实现,它的输入层节点数与说话人嵌入层模型的输出节点数保持一致,输出层为训练...

【技术特征摘要】

1.基于数据集难度的说话人嵌入层模型训练方法,其特征在于,包括:

2.根据权利要求1所述的基于数据集难度的说话人嵌入层模型训练方法,其特征在于,完成训练的说话人嵌入层模型获取方式如下:

3.根据权利要求1或者2所述的基于数据集难度的说话人嵌入层模型训练方法,其特征在于,说话人数目应超过1000人,说话人性别比例均衡,且无静音段音频。

4.根据权利要求2所述的基于数据集难度的说话人嵌入层模型训练方法,其特征在于,所述说话人嵌入层模型选为resnet34,所述说话人分类层使用全连接层实现,它的输入层节点数与说话人嵌入层模型的输出节点数保持一致,输出层为训练集的说话人数。

5.根据权利要求1所述的基于数据集难度的说话人嵌入层模型训练方法,其特征在于,所述损失函数如下:

6.根据权利要求1所述的基于数据集难度的说话人嵌入层模型训练方法,其特征在于,

7.根据权利要求6所述的基于...

【专利技术属性】
技术研发人员:李郡朱浦瑞尚德龙周玉梅
申请(专利权)人:中科南京智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1