一种多模型融合的声纹识别方法、终端、服务器及存储介质技术

技术编号:21955289 阅读:15 留言:0更新日期:2019-08-24 19:07
本发明专利技术公开了一种多模型融合的声纹识别方法、终端、服务器及存储介质,所述方法先建立多模式融合方式进行模型训练,生成多模式融合声纹识别模型,根据场景需求,选择所述多模式融合声纹识别模型用于进行声纹注册或认证;所述场景需求包含音频数据的采样频率。本发明专利技术能有效利用不同频段的语音数据特性采用多模式融合的声纹模型进行声纹识别,提升声纹识别的识别率;可以兼容多种采样率,根据精度及语音质量自适应算法。同时将音频数据进行多个频段划分,解决不同环境噪声,提升声纹识别效果。

A Multi-model Fusion Voice Mark Recognition Method, Terminal, Server and Storage Media

【技术实现步骤摘要】
一种多模型融合的声纹识别方法、终端、服务器及存储介质
本专利技术涉及声纹
,具体涉及一种多模型融合的声纹识别方法、终端、服务器及存储介质。
技术介绍
声纹识别技术一种生物识别技术,通过语音来识别说话人身份的。声纹识别技术在多场景有所应用,如电话,手机,应用程序app,门禁系统,音响,机器人等。人声的频率可以高达10KHz,其在不同频率的能量分布及物理传输特性是不同的。在正常环境下,各种噪音的频率分布是不同的,比如乐器的声音频率一般处于高频。对于声音的采集,不同的情况下声音的采集的采样率是不一样的,其中采样率决定了音频内声音的频率范围,比如8K采样率,其频率范围是0~4KHz。目前声纹识别技术主要包括ivector,xvector,dnn-ivector等算法。这几种算法都各有优缺点。其中ivector算法计算速度快,精度高,但抗噪能力较弱;xvector算法虽速度较慢,但抗噪能力较强;dnn-ivector精度最高,但计算量大,计算最慢。现有声纹识别都是基于一种采样率的音频数据进行训练,虽然识别更高的采样率音频文件,但是如果识别更低的音频文件其适用性会大大降低,其各采样率下的兼容性较差,未考虑各频率段对于声纹识别的作用及影响。
技术实现思路
本专利技术的目的在于克服现有技术问题,提出能有效利用不同频段的语音数据特点;兼容多种采样率,根据精度及语音质量自适应算法,解决不同环境噪声,提出一种多模型融合的声纹识别方法、终端、服务器及存储介质。为达成上述目的,本专利技术采用如下技术方案:一种多模型融合的声纹识别方法,包括如下步骤:(1)建立多模式融合方式进行模型训练,生成多模式融合声纹识别模型,具体如下:分别对第一至第n采样频率的音频数据进行模型训练,其中n为大于等于1的整数:第一采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为N1个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M11模型;处于第i频率段的音频数据采用第Mi算法模型进行训练,生成第M1i模型;依次类推,处于第N1频率段的音频数据采用第MN1算法进行训练,生成第M1N1模型;其中N1为大于等于1的整数;第二采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为N2个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M21模型;处于第i频率段的音频数据采用第Mi算法进行训练,生成第M2i模型,依次类推,处于第N2频率段的音频数据采用第MN2算法进行训练,生成第M2N2模型;其中N2为大于等于1的整数;依次类推第n采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为Nn个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第Mn1模型;处于第i频率段的音频数据采用第Mi算法进行训练,生成第Mni模型;依次类推,处于第Nn频率段的音频数据采用第MNn算法进行训练,生成第MnNn模型;其中n为大于等于2的整数,Nn为大于等于1的整数;(2)根据场景需求,选择所述多模式融合声纹识别模型用于进行声纹注册或认证;所述场景需求包含音频数据的采样频率。进一步的,上述多模型融合的声纹识别方法还包含:所述声纹认证之前,用户注册过程中,根据音频数据的采样频率,确认所应用的多模式融合声纹识别模型,并获取若干模型在不同方式下的注册声纹特征以及相应认证的比较阈值。进一步的,上述多模型融合的声纹识别方法还包含:判断认证音频数据采样频率是否与注册音频数据采样频率相同,若认证音频数据采样频率与注册音频数据采样频率相同,则将若干认证声纹特征分别与相应的若干个注册声纹特征进行相似性比较得到若干相似值,根据若干相似值与若干比较阈值确认是否验证成功;若认证音频数据采样频率与注册音频数据采样频率不相同,则采用注册音频数据采样频率所对应的多模式融合声纹识别模型进行验证,获取若干个认证声纹特征,将若干认证声纹特征分别与相应的若干个注册声纹特征进行相似性比较得到若干相似值,根据若干相似值与若干比较阈值确认是否验证成功。进一步的,根据认证音频数据的采样频率,根据注册时的多模式融合声纹识别模型对应的音频数据频率从低到高划分的若干个频率段,分别判断若干个频率段的音频数据进行信噪比检测,若认证音频数据的某一频率段的信噪比小于或小于等于设定的信噪阈值,则多模式融合声纹识别模型剔除该频率段对应的模型进行验证。进一步的,根据若干相似值与若干比较阈值确认是否验证成功的方式包含以下的任意一种:(1)若干相似值均分别大于等于相应的若干比较阈值,则语音数据验证通过;(2)任意一相似值大于等于相应的比较阈值,则语音数据验证通过;(3)若干相似值根据加权值大于设定阈值,则语音数据验证通过;(4)采用神经网络等方式学习融合进行判断是否验证成功。在本专利技术另体实施例的一种多模型融合的声纹识别方法,其中n取值为2;建立多模式融合方式进行模型训练,生成多模式融合声纹识别模型,具体如下:第一采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为1个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M11模型;该处第一频率段为0~4KHz,第一采样频率为8K;第二采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为2个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M21模型;处于第2频率段的音频数据采用第M2算法进行训练,生成第M22模型;该处第一频率段为0~4KHz,该处第二频率段为4KHz~8KHz,第二采样频率为16K。本专利技术另体实施例的一种多模型融合的声纹识别方法,进一步的,所述第M1算法包含以下的任意一种算法:ivector算法、深度学习算法、gmm-ubm算法、dnn-ivector算法;所述第M2算法包含以下的任意一种算法:xvector算法、深度学习算法、gmm-ubm算法、dnn-ivector算法。相应的,本专利技术还公开了一种终端,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的多模型融合的声纹识别程序,所述自动匹配支付程序被所述处理器执行时实现上述的多模型融合的声纹识别方法的步骤。相应的,本专利技术还公开了一种服务器,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的多模型融合的声纹识别程序,所述自动匹配支付程序被所述处理器执行时实现上述的多模型融合的声纹识别方法的步骤。相应的,本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有多模型融合的声纹识别程序,所述多模型融合的声纹识别程序被处理器执行时实现上述的多模型融合的声纹识别方法的步骤。与现有技术相比较,本专利技术提供的多模型融合的声纹识别方法、终端、服务器及存储介质,能有效利用不同频段的语音数据特性采用多模式融合的声纹模型进行声纹识别,提升声纹识别的识别率;可以兼容多种采样率,根据精度及语音质量自适应算法。同时将音频数据进行多个频段划分,解决不同环境噪声,提升声纹识别效果。附图说明图1为本专利技术实施例1的多模型融合的声纹识别方法的流程步骤图;图2为本专利技术实施例2的多模型融合的声纹识别方法的流程步骤图;图3为本专利技术实施例3的多模型融合的声纹识别方法的流程步骤图。具体实施方式为使本申请的上述目的、特征本文档来自技高网...

【技术保护点】
1.一种多模型融合的声纹识别方法,其特征在于,包括如下步骤:(1)建立多模式融合方式进行模型训练,生成多模式融合声纹识别模型,具体如下:分别对第一至第n采样频率的音频数据进行模型训练,其中n为大于等于1的整数:第一采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为N1个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M11模型;处于第i频率段的音频数据采用第Mi算法模型进行训练,生成第M1i模型;依次类推,处于第N1频率段的音频数据采用第MN1算法进行训练,生成第M1N1模型;其中N1为大于等于1的整数;第二采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为N2个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M21模型;处于第i频率段的音频数据采用第Mi算法进行训练,生成第M2i模型,依次类推,处于第N2频率段的音频数据采用第MN2算法进行训练,生成第M2N2模型;其中N2为大于等于1的整数;依次类推第n采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为Nn个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第Mn1模型;处于第i频率段的音频数据采用第Mi算法进行训练,生成第Mni模型;依次类推,处于第Nn频率段的音频数据采用第MNn算法进行训练,生成第MnNn模型;其中n为大于等于2的整数,Nn为大于等于1的整数;(2)根据场景需求,选择所述多模式融合声纹识别模型用于进行声纹注册或认证;所述场景需求包含音频数据的采样频率。...

【技术特征摘要】
1.一种多模型融合的声纹识别方法,其特征在于,包括如下步骤:(1)建立多模式融合方式进行模型训练,生成多模式融合声纹识别模型,具体如下:分别对第一至第n采样频率的音频数据进行模型训练,其中n为大于等于1的整数:第一采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为N1个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M11模型;处于第i频率段的音频数据采用第Mi算法模型进行训练,生成第M1i模型;依次类推,处于第N1频率段的音频数据采用第MN1算法进行训练,生成第M1N1模型;其中N1为大于等于1的整数;第二采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为N2个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M21模型;处于第i频率段的音频数据采用第Mi算法进行训练,生成第M2i模型,依次类推,处于第N2频率段的音频数据采用第MN2算法进行训练,生成第M2N2模型;其中N2为大于等于1的整数;依次类推第n采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为Nn个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第Mn1模型;处于第i频率段的音频数据采用第Mi算法进行训练,生成第Mni模型;依次类推,处于第Nn频率段的音频数据采用第MNn算法进行训练,生成第MnNn模型;其中n为大于等于2的整数,Nn为大于等于1的整数;(2)根据场景需求,选择所述多模式融合声纹识别模型用于进行声纹注册或认证;所述场景需求包含音频数据的采样频率。2.根据权利要求1所述的多模型融合的声纹识别方法,其特征在于,所述方法还包含:所述声纹认证之前,用户注册过程中,根据音频数据的采样频率,确认所应用的多模式融合声纹识别模型,并获取若干模型在不同方式下的注册声纹特征以及相应认证的比较阈值。3.根据权利要求2所述的多模型融合的声纹识别方法,其特征在于,判断认证音频数据采样频率是否与注册音频数据采样频率相同,若认证音频数据采样频率与注册音频数据采样频率相同,则将若干认证声纹特征分别与相应的若干个注册声纹特征进行相似性比较得到若干相似值,根据若干相似值与若干比较阈值确认是否验证成功;若认证音频数据采样频率与注册音频数据采样频率不相同,则采用注册音频数据采样频率所对应的多模式融合声纹识别模型进行验证,获取若干个认证声纹特征,将若干认证声纹特征分别与相应的若干个注册声纹特征进行相似性比较得到若干相似值,根据若干相似值与若干比较阈值确认是否验证成功。4.根据权利要求2所述的多模型融合的声纹识别方法,其特征在于,根据认证音频数据的采样频率,根据注册时的多...

【专利技术属性】
技术研发人员:洪国强肖龙源李稀敏蔡振华刘晓葳谭玉坤王静
申请(专利权)人:厦门快商通信息咨询有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1