一种多模型融合的声纹识别方法、终端、服务器及存储介质技术

技术编号：21955289 阅读：15 留言：0更新日期：2019-08-24 19:07

本发明专利技术公开了一种多模型融合的声纹识别方法、终端、服务器及存储介质，所述方法先建立多模式融合方式进行模型训练，生成多模式融合声纹识别模型，根据场景需求，选择所述多模式融合声纹识别模型用于进行声纹注册或认证；所述场景需求包含音频数据的采样频率。本发明专利技术能有效利用不同频段的语音数据特性采用多模式融合的声纹模型进行声纹识别，提升声纹识别的识别率；可以兼容多种采样率，根据精度及语音质量自适应算法。同时将音频数据进行多个频段划分，解决不同环境噪声，提升声纹识别效果。

A Multi-model Fusion Voice Mark Recognition Method, Terminal, Server and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
一种多模型融合的声纹识别方法、终端、服务器及存储介质
本专利技术涉及声纹
，具体涉及一种多模型融合的声纹识别方法、终端、服务器及存储介质。
技术介绍
声纹识别技术一种生物识别技术，通过语音来识别说话人身份的。声纹识别技术在多场景有所应用，如电话，手机，应用程序app，门禁系统，音响，机器人等。人声的频率可以高达10KHz，其在不同频率的能量分布及物理传输特性是不同的。在正常环境下，各种噪音的频率分布是不同的，比如乐器的声音频率一般处于高频。对于声音的采集，不同的情况下声音的采集的采样率是不一样的，其中采样率决定了音频内声音的频率范围，比如8K采样率，其频率范围是0～4KHz。目前声纹识别技术主要包括ivector，xvector，dnn-ivector等算法。这几种算法都各有优缺点。其中ivector算法计算速度快，精度高，但抗噪能力较弱；xvector算法虽速度较慢，但抗噪能力较强；dnn-ivector精度最高，但计算量大，计算最慢。现有声纹识别都是基于一种采样率的音频数据进行训练，虽然识别更高的采样率音频文件，但是如果识别更低的音频文件其适用性会大大降低，其各采样率下的兼容性较差，未考虑各频率段对于声纹识别的作用及影响。
技术实现思路
本专利技术的目的在于克服现有技术问题，提出能有效利用不同频段的语音数据特点；兼容多种采样率，根据精度及语音质量自适应算法，解决不同环境噪声，提出一种多模型融合的声纹识别方法、终端、服务器及存储介质。为达成上述目的，本专利技术采用如下技术方案：一种多模型融合的声纹识别方法，包括如下步骤：(1)建立多模式融合方式进行模型...

【技术保护点】
1.一种多模型融合的声纹识别方法，其特征在于，包括如下步骤：(1)建立多模式融合方式进行模型训练，生成多模式融合声纹识别模型，具体如下：分别对第一至第n采样频率的音频数据进行模型训练，其中n为大于等于1的整数：第一采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为N1个频率段；处于第一频率段的音频数据采用第M1算法进行训练，生成第M11模型；处于第i频率段的音频数据采用第Mi算法模型进行训练，生成第M1i模型；依次类推，处于第N1频率段的音频数据采用第MN1算法进行训练，生成第M1N1模型；其中N1为大于等于1的整数；第二采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为N2个频率段；处于第一频率段的音频数据采用第M1算法进行训练，生成第M21模型；处于第i频率段的音频数据采用第Mi算法进行训练，生成第M2i模型，依次类推，处于第N2频率段的音频数据采用第MN2算法进行训练，生成第M2N2模型；其中N2为大于等于1的整数；依次类推第n采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为Nn个频率段；处于第一频率段的音频数据采用第M1算法进行训练，...

【技术特征摘要】
1.一种多模型融合的声纹识别方法，其特征在于，包括如下步骤：(1)建立多模式融合方式进行模型训练，生成多模式融合声纹识别模型，具体如下：分别对第一至第n采样频率的音频数据进行模型训练，其中n为大于等于1的整数：第一采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为N1个频率段；处于第一频率段的音频数据采用第M1算法进行训练，生成第M11模型；处于第i频率段的音频数据采用第Mi算法模型进行训练，生成第M1i模型；依次类推，处于第N1频率段的音频数据采用第MN1算法进行训练，生成第M1N1模型；其中N1为大于等于1的整数；第二采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为N2个频率段；处于第一频率段的音频数据采用第M1算法进行训练，生成第M21模型；处于第i频率段的音频数据采用第Mi算法进行训练，生成第M2i模型，依次类推，处于第N2频率段的音频数据采用第MN2算法进行训练，生成第M2N2模型；其中N2为大于等于1的整数；依次类推第n采样频率的音频数据进行模型训练：将音频数据根据频率从低到高划分为Nn个频率段；处于第一频率段的音频数据采用第M1算法进行训练，生成第Mn1模型；处于第i频率段的音频数据采用第Mi算法进行训练，生成第Mni模型；依次类推，处于第Nn频率段的音频数据采用第MNn算法进行训练，生成第MnNn模型；其中n为大于等于2的整数，Nn为大于等于1的整数；(2)根据场景需求，选择所述多模式融合声纹识别模型用于进行声纹注册或认证；所述场景需求包含音频数据的采样频率。2.根据权利要求1所述的多模型融合的声纹识别方法，其特征在于，所述方法还包含：所述声纹认证之前，用户注册过程中，根据音频数据的采样频率，确认所应用的多模式融合声纹识别模型，并获取若干模型在不同方式下的注册声纹特征以及相应认证的比较阈值。3.根据权利要求2所述的多模型融合的声纹识别方法，其特征在于，判断认证音频数据采样频率是否与注册音频数据采样频率相同，若认证音频数据采样频率与注册音频数据采样频率相同，则将若干认证声纹特征分别与相应的若干个注册声纹特征进行相似性比较得到若干相似值，根据若干相似值与若干比较阈值确认是否验证成功；若认证音频数据采样频率与注册音频数据采样频率不相同，则采用注册音频数据采样频率所对应的多模式融合声纹识别模型进行验证，获取若干个认证声纹特征，将若干认证声纹特征分别与相应的若干个注册声纹特征进行相似性比较得到若干相似值，根据若干相似值与若干比较阈值确认是否验证成功。4.根据权利要求2所述的多模型融合的声纹识别方法，其特征在于，根据认证音频数据的采样频率，根据注册时的多...

【专利技术属性】
技术研发人员：洪国强，肖龙源，李稀敏，蔡振华，刘晓葳，谭玉坤，王静，
申请(专利权)人：厦门快商通信息咨询有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人