一种数字串语音处理方法及装置制造方法及图纸

技术编号:20548135 阅读:49 留言:0更新日期:2019-03-09 20:44
本申请提供了一种数字串语音处理方法及装置,其中,方法包括:获取目标数字串语音;基于整个目标数字串语音和预先建立的身份向量确定模型,确定目标数字串语音中各个数字对应的目标数字身份向量,所有目标数字身份向量组成目标数字串语音对应的数字声纹模型,其中,身份向量确定模型采用数字串语音训练得到,数字声纹模型中包含训练数字串语音中数字串的结构化信息。本申请提供的数字串语音处理方法能够确定出稳定、精准的数字声纹模型。

【技术实现步骤摘要】
一种数字串语音处理方法及装置
本申请涉及声纹识别
,尤其涉及一种数字串语音处理方法及装置。
技术介绍
声纹识别技术又称说话人识别技术,其是利用人的声音来检测说话人的身份的技术。与其它生物识别技术相比,声纹识别技术利用语音信号进行身份确认,具有成本低廉、采集简便、易于存储、难于模仿、交互友好等特点,同时也可以通过电话或网络等方式进行远程操作。因此,声纹识别技术在安防、军事、经济、生活等很多领域都具有良好而广阔的应用前景。根据对语音数据的要求,声纹识别可以分为与文本相关和与文本无关两类。前者要求注册语音和测试语音具有相同的语义文本,需要用户的积极配合,后者则没有此要求,限制因素较少,应用更灵活。文本提示型说话人识别是文本相关声纹识别的一种变形,文本提示型说话人识别的测试语音文本是从一个固定集合中随机组合产生。数字声纹识别是文本提示型说话人识别的一种具体形式,数字声纹识别的测试语音文本是固定位数的随机数字串,随机数字串的使用既约束了文本的变化空间,又可以在使用过程中有效地防止录音回放攻击。数字声纹识别的过程为:获取待验证数字串语音对应的数字声纹模型,将待验证数字串语音对应的数字声纹模本文档来自技高网...

【技术保护点】
1.一种数字串语音处理方法,其特征在于,包括:获取目标数字串语音;基于整个所述目标数字串语音和预先建立的身份向量确定模型,确定所述目标数字串语音中各个数字对应的目标数字身份向量,所有目标数字身份向量组成所述目标数字串语音对应的数字声纹模型;其中,所述身份向量确定模型采用数字串语音训练得到,所述数字声纹模型中包含所述数字串语音中数字串的结构化信息。

【技术特征摘要】
1.一种数字串语音处理方法,其特征在于,包括:获取目标数字串语音;基于整个所述目标数字串语音和预先建立的身份向量确定模型,确定所述目标数字串语音中各个数字对应的目标数字身份向量,所有目标数字身份向量组成所述目标数字串语音对应的数字声纹模型;其中,所述身份向量确定模型采用数字串语音训练得到,所述数字声纹模型中包含所述数字串语音中数字串的结构化信息。2.根据权利要求1所述的数字串语音处理方法,其特征在于,所述身份向量确定模型的训练过程包括:获取所述数字串语音中各个数字的起始位置信息和结束位置信息;获取整个所述数字串语音对应的频域特征;利用整个所述数字串语音对应的频域特征,以及所述数字串语音中各个数字的起始位置信息和结束位置信息,训练并构建身份向量确定模型。3.根据权利要求2所述的数字串语音处理方法,其特征在于,所述将整个所述数字串语音对应的频域特征,以及所述数字串语音中各个数字的起始位置信息和结束位置信息,输入身份向量确定模型进行训练,包括:通过所述身份向量确定模型将整个所述数字串语音对应的频域特征映射为频域上的多个第一特征;通过所述身份向量确定模型将所述频域上的多个第一特征转换为时域上的多个第二特征,其中,任一所述第二特征的长度与所述数字串语音的帧数相同,任一所述第一特征的长度小于任一所述第二特征的长度;基于所述数字串语音中各个数字的起始位置信息和结束位置信息,通过所述身份向量确定模型从所述多个第二特征中分别获取各个数字对应的特征片段,基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量;通过所述身份向量确定模型对所述数字串语音中各个数字对应的数字身份向量进行分类,分类结果作为所述数字串语音对应的身份标签。4.根据权利要求3所述的数字串语音处理方法,其特征在于,所述基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量,包括:对于所述数字串语音中的任一数字,将分别从所述多个第二特征中获取的、该数字对应的特征片段求平均,获得多个特征值,所述多个特征值组成该数字对应的数字身份向量,以得到所述数字串语音中各个数字对应的数字身份向量。5.根据权利要求1~4中任意一项所述的数字串语音处理方法,其特征在于,还包括:确定所述目标数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型的匹配度,其中,所述注册数字串语音对应的数字声纹模型预先基于所述身份向量确定模型确定;若所述匹配度大于预设值,则确定所述目标数字串语音与所述注册数字串语音对应的用户身份一致。6.根据权利要求5所述的数字串语音处理方法,其特征在于,预先基于所述身份向量确定模型确定所述注册数字串语音对应的数字声纹模型,包括:获取注册数字串语音,所述注册数字串语音中至少包括所述目标数字串语音所包含的各个数字;基于所述注册数字串语音和所述身份向量确定模型,确定所述注册数字串语音中各个数字对应的注册声纹特征;将同一数字对应的注册声纹特征求平均,获得所述注册数字串语音中多个不同数字分别对应的注册声纹特征,所述注册数字串语音中多个不同数字分别对应的注册声纹特征组成所述注册数字串语音对应的数字声纹模型。7.一种数字串语音处理装置,其特征在于,包括:语音获取模块和目标声纹模型确定模块;所述语音获取模块,用于获取目标数字串语音;所述目标声纹模型确定模块,用于基于整个所述目标...

【专利技术属性】
技术研发人员:闫杰李晋方昕
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1