一种基于RNN聚合方式的声纹识别方法与系统技术方案

技术编号:24712315 阅读:24 留言:0更新日期:2020-07-01 00:36
本发明专利技术公开了一种基于RNN聚合方式的声纹识别方法与系统,声纹识别方法包括:获取原始音频;抽取原始音频中的原始频谱特征;从原始频谱特征中获得特征层;将特征层输入RNN中聚合,输出RNN中的隐藏状态特征;将隐藏状态特征进行说话人分类;声纹识别系统包括:音频采集模块,用于获取原始音频;频谱特征获取模块,用于抽取所述原始音频中的原始频谱特征数据;特征层获取模块,用于根据所述原始频谱特征数据进行特征层的抽取;聚合模块,用于将所述特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征;说话人分类模块,用于对所述隐藏状态特征进行说话人分类。

【技术实现步骤摘要】
一种基于RNN聚合方式的声纹识别方法与系统
本专利技术涉及声纹识别
,具体涉及一种基于RNN聚合方式的声纹识别方法与系统。
技术介绍
随着信息技术的发展,互联网的普及,需要用到人的身份识别的应用场合越来越多,传统的需求方面有各种网上账户的需要,在线支付、门禁等等,而随着互联网及人工智能的应用推广,根据不同的人的习惯特点需要不同的身份识别方法与系统,比如指纹、人脸、声纹识别,其中声纹识别是生物识别技术的一种,通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量,可通过计算两端语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户,但是语音易受到信道的变性和环境的变性,会极大的降低其准确率,因此需要一种能够提升最终声纹识别的算法准确率性能的方法与系统。
技术实现思路
本专利技术要解决的技术问题是提供一种基于RNN(RecurrentNeuralNetwork,即循环神经网络)聚合方式的声纹识别方法,提取音频中的特征层并输入到RNN中进行聚合形成聚合层,再进行隐藏状态特征的提取,提取出的隐藏状态特征具有较高的准确率;将RNN与特征层进行聚合形成聚合层,能够有效提升聚合层的非线性表达能力;由于F×N特征层具有多个时间方向维度的特征,能够提升最终声纹识别的算法准确率性能,用以解决现有技术导致的缺陷。本专利技术还提供一种基于RNN聚合方式的声纹识别系统。为解决上述技术问题本专利技术提供以下的技术方案:第一方面,一种基于RNN聚合方式的声纹识别方法,其中,包括以下步骤(各步骤之间的先后顺序并不意味着方法必须按其先后次序进行,任何本领域技术人员所知晓的通过改变先后次序达到相同效果的都应是本方法的一种具体实施方式):获取原始音频;抽取所述原始音频中的原始频谱特征;从所述原始频谱特征中获得特征层;将所述特征层输入RNN中聚合,输出RNN中的隐藏状态特征(hiddenstate特征);将所述隐藏状态特征进行说话人分类。优选地,可以输出最后一个RNN单元中的隐藏状态特征(hiddenstate特征)。上述的一种基于RNN聚合方式的声纹识别方法,其中,所述特征层由所述原始频谱特征经过二维卷积神经网络(2D-CNN)进行抽取。上述的一种基于RNN聚合方式的声纹识别方法,其中,所述特征层为F×N特征层,其中F是频率方向的维度,N是时间方向的维度。上述的一种基于RNN聚合方式的声纹识别方法,其中,所述聚合包括以下步骤:将所述F×N特征层输入单向RNN中,所述单向RNN中包含一个或多个RNN单元,将最后一个所述RNN单元的所述隐藏状态特征输出。上述的一种基于RNN聚合方式的声纹识别方法,其中,所述聚合包括以下步骤:将所述F×N特征层输入双向RNN中,所述双向RNN中包含一个或多个RNN单元,将最后一个所述RNN单元的所述隐藏状态特征输出。上述的一种基于RNN聚合方式的声纹识别方法,其中,所述聚合包括以下步骤:对所述F×N特征层按照时间维度方向算平均池化得出平均特征X;将所述平均特征X复制N遍后与所述F×N特征层连接(Concat),输入所述RNN中;取出最后一个所述RNN单元的所述隐藏状态特征与所述平均特征X连接(Concat)后输出。上述的一种基于RNN聚合方式的声纹识别方法,其中,将所述隐藏状态特征通过批量梯度下降法(BGD)进行说话人分类。上述的一种基于RNN聚合方式的声纹识别方法,其中,将所述隐藏状态特征通过随机梯度下降法(SGD)进行说话人分类。上述的一种基于RNN聚合方式的声纹识别方法,其中,将所述隐藏状态特征通过小批量梯度下降法(MBGD)进行说话人分类。第二方面,一种基于RNN聚合方式的声纹识别系统,其中,所述系统包括:音频采集模块,用于获取原始音频;频谱特征获取模块,用于抽取所述原始音频中的原始频谱特征数据;特征层获取模块,用于根据所述原始频谱特征数据进行特征层的抽取;聚合模块,用于将所述特征层输入RNN中进行聚合并输出,优选为输出RNN中的隐藏状态特征;说话人分类模块,用于对所述隐藏状态特征或聚合模块的输出进行说话人分类。上述的一种基于RNN聚合方式的声纹识别系统,其中,所述特征层由所述特征层获取模块根据所述原始频谱特征经过二维卷积神经网络(2D-CNN)进行抽取。上述的一种基于RNN聚合方式的声纹识别系统,其中,所述特征层为F×N特征层,其中F是频率方向的维度,N是时间方向的维度。上述的一种基于RNN聚合方式的声纹识别系统,其中,所述聚合模块为单向导入聚合模块,用于将所述F×N特征层输入单向RNN中进行聚合并输出最后一个RNN单元的所述隐藏状态特征,所述单向RNN中包含一个或多个RNN单元。上述的一种基于RNN聚合方式的声纹识别系统,其中,所述聚合模块为双向导入聚合模块,用于将所述F×N特征层输入双向RNN中进行聚合并输出最后一个RNN单元的所述隐藏状态特征,所述双向RNN中包含一个或多个RNN单元。上述的一种基于RNN聚合方式的声纹识别系统,其中,所述聚合模块内置有平均池化模块与复制模块;所述平均池化模块用于对所述F×N特征层按照时间维度方向算平均池化得出平均特征X;所述复制模块用于将所述平均特征X复制N遍,随后通过所述聚合模块与F×N特征层连接,输入所述RNN中进行聚合,取出最后一个所述RNN单元的所述隐藏状态特征与所述平均特征X连接后输出。上述的一种基于RNN聚合方式的声纹识别系统,其中,所述说话人分类模块内置有执行模块,所述执行模块内置有批量梯度下降法程序,所述执行模块被处理器控制执行将所述隐藏状态特征通过批量梯度下降法进行说话人分类。上述的一种基于RNN聚合方式的声纹识别系统,其中,所述说话人分类模块内置有执行模块,所述执行模块内置有随机梯度下降法程序,所述执行模块被处理器控制执行将所述隐藏状态特征通过随机梯度下降法进行说话人分类。上述的一种基于RNN聚合方式的声纹识别系统,其中,所述说话人分类模块内置有执行模块,所述执行模块内置有小批量梯度下降法程序,所述执行模块被处理器控制执行将所述隐藏状态特征通过小批量梯度下降法进行说话人分类。第三方面,一种系统处理装置,其中,包括至少一个处理器,与所述至少一个处理器耦合的存储器,所述存储器存储有可执行指令,其中,所述可执行指令在被所述至少一个处理器执行时使得实现如上述任一项所述的方法。在系统处理装置的其中一个或多个具体实施方式中,可执行指令在被上述至少一个处理器执行时用于:获取原始音频;抽取所述原始音频中的原始频谱特征;从所述原始频谱特征中获得特征层;将所述特征层输入RNN中聚合并输出RNN中的隐藏状态特征;将所述隐藏状态特征进行说话人分类。在系统处理装置的其中一个或多个具体实施方式中,上述特征层由所述原始频谱本文档来自技高网...

【技术保护点】
1.一种基于RNN聚合方式的声纹识别方法,其特征在于,包括以下步骤:/n获取原始音频;/n抽取所述原始音频中的原始频谱特征;/n从所述原始频谱特征中获得特征层;/n将所述特征层输入RNN中聚合,输出RNN中的隐藏状态特征;/n将所述隐藏状态特征进行说话人分类。/n

【技术特征摘要】
1.一种基于RNN聚合方式的声纹识别方法,其特征在于,包括以下步骤:
获取原始音频;
抽取所述原始音频中的原始频谱特征;
从所述原始频谱特征中获得特征层;
将所述特征层输入RNN中聚合,输出RNN中的隐藏状态特征;
将所述隐藏状态特征进行说话人分类。


2.如权利要求1所述的一种基于RNN聚合方式的声纹识别方法,其特征在于,所述特征层由所述原始频谱特征经过二维卷积神经网络进行抽取。


3.如权利要求2所述的一种基于RNN聚合方式的声纹识别方法,其特征在于,所述特征层为F×N特征层,其中F是频率方向的维度,N是时间方向的维度。


4.如权利要求3所述的一种基于RNN聚合方式的声纹识别方法,其特征在于,所述聚合包括以下步骤:
对所述F×N特征层按照时间维度方向算平均池化得出平均特征X;
将所述平均特征X复制N遍后与所述F×N特征层连接,输入所述RNN中;
取出最后一个所述RNN单元的所述隐藏状态特征与所述平均特征X连接后输出。


5.一种基于RNN聚合方式的声纹识别系统,其特征在于,所述系统包括:
音频采集模块,用于获取原始音频;
频谱特征获取模块,用于抽取所述原始音频中的原始频谱特征数据;
特征层获取模块,用于根据所述原始频谱特征数据进行特征层的抽取;
聚合模块,用于将所述特征层输入RNN中进行...

【专利技术属性】
技术研发人员:陈华官张志齐
申请(专利权)人:上海依图网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1