一种基于空洞卷积神经网络的端到端语种识别分类方法技术

技术编号:30413327 阅读:15 留言:0更新日期:2021-10-24 16:14
本发明专利技术公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。时间信息丢失问题。时间信息丢失问题。

【技术实现步骤摘要】
一种基于空洞卷积神经网络的端到端语种识别分类方法


[0001]本专利技术涉及语种识别
,特别涉及一种基于空洞卷积神经网络的端到端语种识别分类方法。

技术介绍

[0002]语种识别(Language Identification,LID)是指自动判定给定的语音片段,从该语音片段的语音信号中提取各语种的差异信息,判断语言种类的过程。语种识别技术在多语种语音处理方面有重要的应用,例如,口语语言翻译系统、多语种语音识别系统、语音文本处理等。
[0003]目前,传统的语种识别技术包括两种方法:第一种方法,基于音素层特征的语种识别技术;其中,基于音素层特征的语种识别技术是将音素层特征作为识别依据。常用的方法有音素识别后接N元文法模型(Phoneme Recognizer followed by Language Model,PRLM)和并行音素识别器后接语言模型(Parallel Phone Recognition followed by Language Modeling,PPRLM)等。第二种方法,基于声学层特征的语种识别技术依赖于声学层特征,主流的语种识别系统有混合高斯模型-全局背景模型(Gaussian Mixture Model-Universal Back-ground Model,GMM-UBM)、高斯超向量-支持向量机(GMM Super Vector-Support Vector Machines,GSV-SVM)和基于全差异空间的(Total Variability,TV)i-vector系统等。本专利技术采用传统的TV ivector系统提取原始i-vector。
[0004]近几年,深度神经网络(Deep Neural Networks,DNN)模型在语种识别技术上得到快速发展,具体从以下两个方面体现:一方面从前端语种特征提取层面,利用DNN模型强大的语种特征的抽取能力,提取了深度瓶颈特征(Deep Bottleneck Feature,DBF)。另一方面从模型域出发,提出基于DNN的TV建模策略。
[0005]近几年,也有学者提出了基于深度学习的端对端语种识别系统,摒弃了传统的语种识别系统框架。2014年GOOGLE的研究人员将特征提取、特征变换和分类器融于一个神经网络模型中,搭建了一个帧级别的语种识别端到端系统。随后有研究人员在此基础上发掘了不同神经网络的优势,包括延时神经网络(time-delay neural network,TDNN),长短时记忆递归神经网络(long short term memory-recurrent neural network,LSTM-RNN),但这些端到端语种识别系统的输入为帧级声学特征,输出为帧级判决,需要后处理将帧级特征转成句级特征进行语种判决。2016年Geng等人利用注意力机制模型(attention-based model),结合LSTM-RNN搭建了端到端语种识别系统,输入帧级声学特征,利用LSTM提取语音的段级表达,在短时语音上取得了不错的语种识别性能。2018年,David等人提出基于深度神经网络的x-vector系统,验证了借助统计池化层得到的输入语音段级表达在各个语音时长测试条件下都优于传统i-vector系统。同年Cai等人采用深度卷积神经网络提取更加具有语种鉴别性的帧级特征并提出基于可学习的字典编码层,也得到了很好的段级表达。从这些研究工作中可以发现,相比较传统的基于i-vector方法的语种识别技术,基于深度学习的端到端方法更具性能优势,已经成为语种识别任务中的主流方法。普通的卷积神经网
络及其下采样在局部上下文建模和语种相关性方面具有很强的能力,但在这一过程中压缩了特征,丧失了语音的时间结构。然而时间信息与语种识别高度相关。

技术实现思路

[0006]本专利技术的目的在于,为解决现有的基于卷积神经网络的语种识别方法存在上述缺陷,提出了一种基于空洞卷积神经网络的端到端语种识别网络,经过多层空洞卷积,保证网络计算量不变的情况下,增加语音信号的感受野,充分挖掘上下文信息,提取具有更具有鉴别性的语种特征,进一步提升语种识别系统的性能。
[0007]为了达到上述目的,本专利技术实施例记载了一种基于空洞卷积神经网络的端到端语种识别分类方法,通过下列步骤实现对目标语音的识别:
[0008]提取训练语音的帧级别声学底层特征;待训练语种识别网络接收,并对训练语音的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。
[0009]一个实例中,训练语音的帧级别声学底层特征,和测试语音的帧级别声学底层特征,为23维梅尔倒谱系数。
[0010]一个实例中,语种识别网络为残差网络,残差网络中包括至少一空洞卷积层。
[0011]其中,残差网络第l组中第i层空洞卷积层的输出为:
[0012][0013]为与相关联的滤波器,p为中的特征映射域,a为网络层的输入,b为滤波器域,k为空洞率。
[0014]本专利技术实施例的优点在于:使用空洞卷积神经网络,在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。空洞卷积继承了残差网络的特性,保持了输入信号的时间结构,并且随着网络的扩展,网络可以保证大的视野,提供了很强的局部上下文建模能力。
附图说明
[0015]图1为本专利技术实施例的一种基于空洞卷积神经网络的端到端语种识别分类方法流程图框图;
[0016]图2(a)为标准卷积的示意图;
[0017]图2(b)为空洞卷积的示意图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例
中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]图1为本专利技术实施例的一种基于空洞卷积神经网络的端到端语种识别分类方法流程图框图,如图1所示,包括下列步骤:
[0020]步骤S101:提取训练语音的帧级别声学底层特征。
[0021]一个实施例中,帧级别声学底层特征为23维梅尔倒谱系数。
[0022]步骤S102:待训练语种识别网络接收训练语音的帧级别声学底层特征,并对其进行至少一层空洞卷积后,输出后验概率。
[0023]采用基于空洞卷积的语种识别网络作为样本的训练对象,可以通过空洞卷积,增加语音信号的感受野。以此充分挖掘上下文信息,提取具有鉴别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于空洞卷积神经网络的端到端语种识别分类方法,其特征在于,包括下列步骤:提取训练语音的帧级别声学底层特征;待训练语种识别网络接收所述训练语音的帧级别声学底层特征,对所述训练语音的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;根据所述训练语音后验概率与真实类别标签,确定所述待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新所述待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;所述训练后语种识别网络接收所述测试语音的帧级别声学底层特征,输出测试语音后验概率;根据所述测试语音后验概率判定测试语音中的至少一个语种类别。2.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:张鹏远苗晓晓王文超颜永红
申请(专利权)人:北京中科信利技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1