发声对象识别方法、装置、服务器及存储介质制造方法及图纸

技术编号:33416218 阅读:28 留言:0更新日期:2022-05-19 00:10
本公开关于一种发声对象识别方法、装置、服务器及存储介质。其中,该发声对象识别方法包括:从待识别发声对象的第一语音数据中提取第一语音向量,以及从目标发声对象的第二语音数据中提取第二语音向量;将第一语音向量和第二语音向量输入到声纹特征识别模型,利用声纹特征识别模型中隐藏层的激活函数分别对第一语音向量和第二语音向量进行声纹特征提取,得到待识别发声对象的第一声纹特征和目标发声对象的第二声纹特征;计算第一声纹特征与第二声纹特征之间的相似度;若相似度大于或等于相似度阈值,则确定待识别发声对象与目标发声对象相匹配。能够准确地确定出待识别发声对象与目标发声对象是否相匹配。目标发声对象是否相匹配。目标发声对象是否相匹配。

【技术实现步骤摘要】
发声对象识别方法、装置、服务器及存储介质


[0001]本公开涉及通信
,尤其涉及一种发声对象识别方法、装置、服务器及存储介质。

技术介绍

[0002]随着移动互联网的发展,各种各样的网络平台发展迅速,大量的用户会在网络平台上上传自己的音视频,有些情况下,网络平台需要确定音视频对应的发声对象。
[0003]发声对象识别可以基于待测发声对象说出的语音,判断待测发声对象是否为已注册的一个目标对象,但是目前由于用于训练的说话人数据的语音样本都较少,导致识别发声对象的准确度和速度都不高。

技术实现思路

[0004]本公开提供一种发声对象识别方法、装置、服务器及存储介质,以至少解决相关技术中识别发声对象的准确度和速度都不高的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种发声对象识别方法,包括:从待识别发声对象的第一语音数据中提取第一语音向量,以及从目标发声对象的第二语音数据中提取第二语音向量;将第一语音向量和第二语音向量输入到声纹特征识别模型,利用声纹特征识别模型中隐藏层的激活函数分别对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种发声对象识别方法,其特征在于,包括:从待识别发声对象的第一语音数据中提取第一语音向量,以及从目标发声对象的第二语音数据中提取第二语音向量;将所述第一语音向量和所述第二语音向量输入到声纹特征识别模型,利用所述声纹特征识别模型中隐藏层的激活函数分别对所述第一语音向量和所述第二语音向量进行声纹特征提取,得到所述待识别发声对象的第一声纹特征和所述目标发声对象的第二声纹特征,所述声纹特征识别模型包括多个级联的隐藏层,所述隐藏层的层数和每层所述隐藏层的隐藏神经元数根据训练样本的数量确定;计算所述第一声纹特征与所述第二声纹特征之间的相似度;若所述相似度大于或等于相似度阈值,则确定所述待识别发声对象与所述目标发声对象相匹配。2.根据权利要求1所述的方法,其特征在于,在所述将所述第一语音向量和所述第二语音向量输入到声纹特征识别模型之前,所述方法还包括:获取所述第一发声对象的第三语音向量及其对应的目标标识信息;根据预设时延参数和所述第三语音向量确定第四语音向量,所述预设时延参数为所述声纹特征识别模型的时延参数,每个所述第三语音向量与一帧音频相对应;根据所述第三语音向量和所述第四语音向量确定目标语音向量;将所述目标语音向量输入到所述声纹特征识别模型,以使所述声纹特征识别模型的第一隐藏层利用激活函数对所述目标语音向量进行声纹特征提取,得到所述第三声纹特征;根据所述第三声纹特征及其对应的目标标识信息,训练所述声纹特征识别模型。3.根据权利要求2所述的方法,其特征在于,所述根据预设时延参数和所述第三语音向量确定第四语音向量,包括:根据所述预设时延参数确定与所述第三语音向量对应的音频帧相隔预设时延的至少一个音频帧;将所述至少一个音频帧对应的语音向量确定为所述第四语音向量。4.根据权利要求1所述的方法,其特征在于,所述从待识别发声对象的第一语音数据中提取第一语音向量,包括:根据所述第一语音数据对应的音频帧和预设窗函数,确定第一语音信号;对所述第一语音信号进行快速傅里叶变换,得到所述音频帧的频谱信号;对所述频谱信号所述进行滤波处理,得到滤波后的频谱信号;对所述滤波后的频谱信号进行离散余弦变换,得到所述第一语音向量。5.根据权利要求1所述的方法,其特征在于,所述计算所述第一声...

【专利技术属性】
技术研发人员:张大威姜涛王晓瑞王俊李岩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1