声纹识别方法和装置制造方法及图纸

技术编号:19936703 阅读:34 留言:0更新日期:2018-12-29 05:27
本发明专利技术实施例提供了一种声纹识别方法和装置,其中的方法具体包括:利用语音转换模型,将待检测的第一语音数据转换为待检测的第二语音数据;其中,第一语音数据的语速与第二语音数据的语速不同,和/或,第一语音数据的频率与第二语音数据的频率不同;利用第二语音数据对应的声纹识别模型,对待检测的第二语音数据进行声纹识别,以得到待检测的第二语音数据对应的声纹识别结果。本发明专利技术实施例可以使声纹识别模型根据转换得到的待检测的语音数据进行准确的声纹识别,在一定程度上提高第一语音数据的声纹识别准确度,且可以提高声纹识别的灵活性。

【技术实现步骤摘要】
声纹识别方法和装置
本专利技术涉及声纹识别
,尤其涉及一种声纹识别方法和装置。
技术介绍
声纹识别(也称发声用户识别)技术是一项根据语音波形中反映发声用户生理和行为特征的语音参数,来识别待测语音话者身份的技术。声纹识别技术有着十分广阔的应用前景:在刑侦领域,可以用于协助确认犯罪嫌疑人信息;在银行等重要部门的安全系统中,可以用于身份核查的一种手段;在日常活动中,可以用于个人身份认证,如声纹锁、声纹门禁系统等。与其它采用同样采用人体生物特征的识别技术(如指纹识别技术、人脸识别技术等)相比,声纹识别显得更加直接友好,同时也更不容易被模仿。相关技术中,可以先采集至少一个用户的说话语音数据,并对每个用户的说话语音数据进行特征提取,并依据提取得到的声纹形成声纹模型库。之后,获取任意一个用户的语音数据作为待测语音,对该待测语音进行特征提取,再与声纹模型库中的至少一个声纹进行匹配,确定待测语音与至少一个声纹的相似度,最后确定该相似度最高的声纹所对应的用户,为待测语音所对应的用户。在实现本专利技术实施例的过程中,专利技术人发现相关技术至少存在以下问题:当待测语音不是说话语音时,例如当待测语音为歌唱语音时,则识别得到的结果不准确,造成声纹识别准确度较低的问题。
技术实现思路
本专利技术实施例提供一种声纹识别方法和装置,能够在一定程度上提高第一语音数据的声纹识别准确度,且可以提高声纹识别的灵活性。为了解决上述问题,第一方面,本专利技术公开了一种声纹识别方法,所述方法包括:利用语音转换模型,将待检测的第一语音数据转换为待检测的第二语音数据;其中,所述第一语音数据的语速与所述第二语音数据的语速不同,和/或,所述第一语音数据的频率与所述第二语音数据的频率不同;利用所述第二语音数据对应的声纹识别模型,对所述待检测的第二语音数据进行声纹识别,以得到所述待检测的第二语音数据对应的声纹识别结果。可选地,所述方法还包括:获取两个语速和频率均不同的平行语料数据;根据所述平行语料数据进行训练,得到语音转换模型。可选地,所述平行语料数据包括:第一语音样本数据和第二语音样本数据,所述第一语音样本数据的特征帧与所述第二语音样本数据的特征帧对齐;所述获取两个语速和频率均不同的平行语料数据,包括:提取所述第一语音样本数据对应的特征帧和所述第二语音样本数据对应的特征帧;将所述第一语音样本数据对应的特征帧与所述第二语音样本数据对应的特征帧对齐;将对齐特征帧之后的第一语音样本数据和第二语音样本数据作为平行语料数据。可选地,所述方法还包括:利用第三语音数据对应的声纹识别模型,对所述第三语音数据进行声纹识别,以得到所述第三语音数据对应的声纹识别结果;其中,所述第一语音数据的语速与所述第三语音数据的语速不同,和/或,所述第一语音数据的频率与所述第三语音数据的频率不同;判断所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果是否一致;当所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果一致时,确定所述第一语音数据的发声用户为所述第三语音数据的发声用户。可选地,所述根据所述平行语料数据进行训练,得到语音转换模型,包括:将所述第一语音样本数据对应的特征帧作为输入数据;将所述第二语音样本数据对应的特征帧作为输出数据;对所述输入数据和所述输出数据进行训练,得到语音转换模型。可选地,所述方法还包括:根据第一语音样本数据和第二语音样本数据进行训练,得到声纹识别模型;其中,所述第一语音样本数据的语速与所述第二语音样本数据的语速不同,和/或,所述第一语音样本数据的频率与所述第二语音样本数据的频率不同。可选地,所述利用所述第二语音数据对应的声纹识别模型,对所述待检测的第二语音数据进行声纹识别,以得到所述待检测的第二语音数据对应的声纹识别结果,包括:利用所述第二语音数据对应的声纹识别模型,对所述待检测的第二语音数据进行声纹提取,得到与所述第二语音数据对应的待检测声纹;确定所述待检测声纹与所述声纹识别模型中记录的预置声纹之间的匹配度;依据所述匹配度,得到所述待检测的第二语音数据对应的声纹识别结果。可选地,所述第一语音数据为歌唱语音或朗诵语音或打呼噜语音,所述第二语音数据为说话语音。第二方面,本专利技术公开了一种声纹识别装置,所述装置包括:转换模块,用于利用语音转换模型,将待检测的第一语音数据转换为待检测的第二语音数据;其中,所述第一语音数据的语速与所述第二语音数据的语速不同,和/或,所述第一语音数据的频率与所述第二语音数据的频率不同;第一识别模块,用于利用所述第二语音数据对应的声纹识别模型,对所述待检测的第二语音数据进行声纹识别,以得到所述待检测的第二语音数据对应的声纹识别结果。可选地,所述装置还包括:获取模块,用于获取两个语速和频率均不同的平行语料数据;第一训练模块,用于根据所述平行语料数据进行训练,得到语音转换模型。可选地,所述平行语料数据包括:第一语音样本数据和第二语音样本数据,所述第一语音样本数据的特征帧与所述第二语音样本数据的特征帧对齐;所述获取模块包括:提取子模块,用于提取所述第一语音样本数据对应的特征帧和所述第二语音样本数据对应的特征帧;对齐子模块,用于将所述第一语音样本数据对应的特征帧与所述第二语音样本数据对应的特征帧对齐;确定子模块,用于将对齐特征帧之后的第一语音样本数据和第二语音样本数据作为平行语料数据。可选地,所述装置还包括:第二识别模块,用于利用第三语音数据对应的声纹识别模型,对所述第三语音数据进行声纹识别,以得到所述第三语音数据对应的声纹识别结果;其中,所述第一语音数据的语速与所述第三语音数据的语速不同,和/或,所述第一语音数据的频率与所述第三语音数据的频率不同;判断模块,用于判断所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果是否一致;确定模块,用于当所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果一致时,确定所述第一语音数据的发声用户为所述第三语音数据的发声用户。可选地,所述第一训练模块包括:输入确定子模块,用于将所述第一语音样本数据对应的特征帧作为输入数据;输出确定子模块,用于将所述第二语音样本数据对应的特征帧作为输出数据;模型训练子模块,用于对所述输入数据和所述输出数据进行训练,得到语音转换模型。可选地,所述装置还包括:第二训练模块,用于根据第一语音样本数据和第二语音样本数据进行训练,得到声纹识别模型;其中,所述第一语音样本数据的语速与所述第二语音样本数据的语速不同,和/或,所述第一语音样本数据的频率与所述第二语音样本数据的频率不同。可选地,所述识别模块包括:声纹提取子模块,用于利用所述第二语音数据对应的声纹识别模型,对所述待检测的第二语音数据进行声纹提取,得到与所述第二语音数据对应的待检测声纹;声纹匹配子模块,用于确定所述待检测声纹与所述声纹识别模型中记录的预置声纹之间的匹配度;结果确定子模块,用于依据所述匹配度,得到所述待检测的第二语音数据对应的声纹识别结果。可选地,所述第一语音数据为歌唱语音或朗诵语音或打呼噜语音,所述第二语音数据为说话语音。第三方面,本专利技术公开了一种声纹识别装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程本文档来自技高网...

【技术保护点】
1.一种声纹识别方法,其特征在于,所述方法包括:利用语音转换模型,将待检测的第一语音数据转换为待检测的第二语音数据;其中,所述第一语音数据的语速与所述第二语音数据的语速不同,和/或,所述第一语音数据的频率与所述第二语音数据的频率不同;利用所述第二语音数据对应的声纹识别模型,对所述待检测的第二语音数据进行声纹识别,以得到所述待检测的第二语音数据对应的声纹识别结果。

【技术特征摘要】
1.一种声纹识别方法,其特征在于,所述方法包括:利用语音转换模型,将待检测的第一语音数据转换为待检测的第二语音数据;其中,所述第一语音数据的语速与所述第二语音数据的语速不同,和/或,所述第一语音数据的频率与所述第二语音数据的频率不同;利用所述第二语音数据对应的声纹识别模型,对所述待检测的第二语音数据进行声纹识别,以得到所述待检测的第二语音数据对应的声纹识别结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取两个语速和频率均不同的平行语料数据;根据所述平行语料数据进行训练,得到语音转换模型。3.根据权利要求2所述的方法,其特征在于,所述平行语料数据包括:第一语音样本数据和第二语音样本数据,所述第一语音样本数据的特征帧与所述第二语音样本数据的特征帧对齐;所述获取两个语速和频率均不同的平行语料数据,包括:提取所述第一语音样本数据对应的特征帧和所述第二语音样本数据对应的特征帧;将所述第一语音样本数据对应的特征帧与所述第二语音样本数据对应的特征帧对齐;将对齐特征帧之后的第一语音样本数据和第二语音样本数据作为平行语料数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述平行语料数据进行训练,得到语音转换模型,包括:将所述第一语音样本数据对应的特征帧作为输入数据;将所述第二语音样本数据对应的特征帧作为输出数据;对所述输入数据和所述输出数据进行训练,得到语音转换模型。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用第三语音数据对应的声纹识别模型,对所述第三语音数据进行声纹识别,以得到所述第三语音数据对应的声纹识别结果;其中,所述第一语音数据的语速与所述第三语音数据的语速不同,和/或,所述第一语音数据的频率与所述第三语音数据的频率不同;判断所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果是否一致;当所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果一致时,确定所述第一语音数据的发声用户为所述第三语音数据的发声用户。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据第一语音样本数...

【专利技术属性】
技术研发人员:张涛涛许云飞潘逸倩陈伟
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1