一种基于RNN聚合方式的声纹识别方法与系统技术方案

技术编号：24712315 阅读：24 留言：0更新日期：2020-07-01 00:36

本发明专利技术公开了一种基于RNN聚合方式的声纹识别方法与系统，声纹识别方法包括：获取原始音频；抽取原始音频中的原始频谱特征；从原始频谱特征中获得特征层；将特征层输入RNN中聚合，输出RNN中的隐藏状态特征；将隐藏状态特征进行说话人分类；声纹识别系统包括：音频采集模块，用于获取原始音频；频谱特征获取模块，用于抽取所述原始音频中的原始频谱特征数据；特征层获取模块，用于根据所述原始频谱特征数据进行特征层的抽取；聚合模块，用于将所述特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征；说话人分类模块，用于对所述隐藏状态特征进行说话人分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于RNN聚合方式的声纹识别方法与系统
本专利技术涉及声纹识别
，具体涉及一种基于RNN聚合方式的声纹识别方法与系统。
技术介绍
随着信息技术的发展，互联网的普及，需要用到人的身份识别的应用场合越来越多，传统的需求方面有各种网上账户的需要，在线支付、门禁等等，而随着互联网及人工智能的应用推广，根据不同的人的习惯特点需要不同的身份识别方法与系统，比如指纹、人脸、声纹识别，其中声纹识别是生物识别技术的一种，通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，可通过计算两端语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户，但是语音易受到信道的变性和环境的变性，会极大的降低其准确率，因此需要一种能够提升最终声纹识别的算法准确率性能的方法与系统。
技术实现思路
本专利技术要解决的技术问题是提供一种基于RNN（RecurrentNeuralNetwork，即循环神经网络）聚合方式的声纹识别方法，提取音频中的特征层并输入到RNN中进行聚合形成聚合层，再进行隐藏状态特征的提取，提取出的隐藏状态特征具有较高的准确率；将RNN与特征层进行聚合形成聚合层，能够有效提升聚合层的非线性表达能力；由于F×N特征层具有多个时间方向维度的特征，能够提升最终声纹识别的算法准确率性能，用以解决现有技术导致的缺陷。本专利技术还提供一种基于RNN聚合方式的声纹识别系统。为解决上述技术问题本专利技术提供以下的技术方案：第一方面，一种基于RNN聚合方式的声纹识别方...

【技术保护点】
1.一种基于RNN聚合方式的声纹识别方法，其特征在于，包括以下步骤：/n获取原始音频；/n抽取所述原始音频中的原始频谱特征；/n从所述原始频谱特征中获得特征层；/n将所述特征层输入RNN中聚合，输出RNN中的隐藏状态特征；/n将所述隐藏状态特征进行说话人分类。/n

【技术特征摘要】
1.一种基于RNN聚合方式的声纹识别方法，其特征在于，包括以下步骤：
获取原始音频；
抽取所述原始音频中的原始频谱特征；
从所述原始频谱特征中获得特征层；
将所述特征层输入RNN中聚合，输出RNN中的隐藏状态特征；
将所述隐藏状态特征进行说话人分类。

2.如权利要求1所述的一种基于RNN聚合方式的声纹识别方法，其特征在于，所述特征层由所述原始频谱特征经过二维卷积神经网络进行抽取。

3.如权利要求2所述的一种基于RNN聚合方式的声纹识别方法，其特征在于，所述特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

4.如权利要求3所述的一种基于RNN聚合方式的声纹识别方法，其特征在于，所述聚合包括以下步骤：
对所述F×N特征层按照时间维度方向算平均池化得出平均特征X；
将所述平均特征X复制N遍后与所述F×N特征层连接，输入所述RNN中；
取出最后一个所述RNN单元的所述隐藏状态特征与所述平均特征X连接后输出。

5.一种基于RNN聚合方式的声纹识别系统，其特征在于，所述系统包括：
音频采集模块，用于获取原始音频；
频谱特征获取模块，用于抽取所述原始音频中的原始频谱特征数据；
特征层获取模块，用于根据所述原始频谱特征数据进行特征层的抽取；
聚合模块，用于将所述特征层输入RNN中进行...

【专利技术属性】
技术研发人员：陈华官，张志齐，
申请(专利权)人：上海依图网络科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人