当前位置: 首页 > 专利查询>天津大学专利>正文

基于深层时延神经网络的藏语卫藏方言口语识别方法技术

技术编号:28843125 阅读:30 留言:0更新日期:2021-06-11 23:42
本发明专利技术涉及深度学习、信号处理、语音识别、特征提取、发音学等技术领域,为针对藏语卫藏方言的口语应用场景,提升藏语卫藏方言口语识别模型的整体效果,本发明专利技术,基于深层时延神经网络的藏语卫藏方言口语识别方法,采用三种藏语方言混合的音频数据集,通过速度扰动、添加噪音和混响的方法对原始音频数据集进行扩充,并利用扩充后的数据集基于开源的语音识别工具箱kaldi的链式chain模型训练一个深层的时延神经网络,作为藏语声学模型,利用音频数据中卫藏方言的部分对声学模型进行第二次训练,以获得针对卫藏方言的深层的时延神经网络声学模型。本发明专利技术主要应用于藏语卫藏方言口语识别场合。

【技术实现步骤摘要】
基于深层时延神经网络的藏语卫藏方言口语识别方法
本专利技术涉及深度学习、信号处理、语音识别、特征提取、发音学等
,并将数据增广技术与深度神经网络技术进行结合,针对藏语卫藏方言口语类的应用场景,有针对性地对主要的声学模型和语言模型部分进行训练和调整,从而达到搭建一个效果较好的藏语卫藏方言口语语音识别系统的目的。
技术介绍
当今时代,人工智能已经成为了科技行业研究的前沿和热点,各项人工智能技术也逐渐开始落地,走进人们的生活,语音识别就是其中一个非常重要的
语音识别技术就是让计算机听到人的语言并转化成其对应的文字内容的技术。这一技术的发展无疑改变了人类与计算机的交互方式,方便了人们的日常生活。如今语音识别技术在汉语普通话、英语等资源较多的语种上已经获得了较好的效果。然而,在如藏语、维吾尔语、地方方言等语言类型上,语音识别技术的发展还较为落后。其原因在于,藏语等小语种由于使用人数较为稀少,获取技术研究所用的语料资源比较困难,成本很高,而且建立语音识别系统过程中往往需要较为专业的语言和发音方面的知识,导致研究这些小语种上语音识别技术本文档来自技高网...

【技术保护点】
1.一种基于深层时延神经网络的藏语卫藏方言口语识别方法,其特征是,采用三种藏语方言混合的音频数据集,通过速度扰动、添加噪音和混响的方法对原始音频数据集进行扩充,并利用扩充后的数据集基于开源的语音识别工具箱kaldi的链式chain模型训练一个深层的时延神经网络,作为藏语声学模型,利用音频数据中卫藏方言的部分对声学模型进行第二次训练,以获得针对卫藏方言的深层的时延神经网络声学模型;基于已有的有限的文本资源,分别使用口语类的藏文文本和新闻资讯类的藏语文本训练两个不同内容领域的N元语法N-gram语言模型,并按照1:1的比例进行插值,并且使用剪枝技术控制插值得到的模型的大小,得到藏文N-gram语言...

【技术特征摘要】
1.一种基于深层时延神经网络的藏语卫藏方言口语识别方法,其特征是,采用三种藏语方言混合的音频数据集,通过速度扰动、添加噪音和混响的方法对原始音频数据集进行扩充,并利用扩充后的数据集基于开源的语音识别工具箱kaldi的链式chain模型训练一个深层的时延神经网络,作为藏语声学模型,利用音频数据中卫藏方言的部分对声学模型进行第二次训练,以获得针对卫藏方言的深层的时延神经网络声学模型;基于已有的有限的文本资源,分别使用口语类的藏文文本和新闻资讯类的藏语文本训练两个不同内容领域的N元语法N-gram语言模型,并按照1:1的比例进行插值,并且使用剪枝技术控制插值得到的模型的大小,得到藏文N-gram语言模型;将所述深层的时延神经网络声学模型、N-gram语言模型和发音词典结合构成解码器,之后再采用对口语类内容领域和新闻资讯类内容领域对应的两个语言模型按照8:2的比例重新插值,获得一个新的偏向于口语领域的语言模型,用来对解码出的中间结果进行重打分,使得整体语言模型更加偏重于口语类的文法习惯,将训练好的时延神经网络声学模型和N-gram语言模型、重打分语言模型组合成系统,得到最后针对藏语卫藏方言的口语领域语音识别模型。


2.如权利要求1所述的基于深层时延神经网络的藏语卫藏方言口语识别方法,其特征是,具体步骤如下:
步骤一,准备藏语音频数据集,使用增广技术对其进行扩充;
步骤二,提取声学特征:使用的是梅尔频率倒谱系数MFCC特征加上基音周期信息pitch特征;具体步骤是,在训练高斯混合模型GMM声学模型时,提取13维低精度MFCC特征加上3维的pitch特征;训练时延神经网络TDNN声学模型的时候,使用40维高精度MFCC特征加上3维的pitch特征,此外,还使用到i-vector特征(Identity-Vector),维度为100维;
步骤三,声学模型的训练,操作过程包括以下两个方面:
第一,训练隐马尔科夫-高斯混合模型HMM-GMM声学模型,使用提取的13维MFCC特征加pitch特征,共16维,使用kaldi训练单音素模型(monophone)和三音素模型(triphone)的GMM声学模型;
第二,使用训练得到的三音素GMM模型对训练数据进行对齐,为后面的TDNN模型训练提供音素级别的对齐信息;
步骤四,使用一个深层的时延神经网络结构,构建藏语通用声学模型;
步骤五,利用藏语卫藏方言部分的声学数据集,在训练好的声学模型基础上,进行第二次训练,得到最终的藏语卫藏方言的声学模型;
步骤六,训练藏文的语言模型,具体使用收集到的藏文文本资料,训练N-gram藏文语言模型,其中,N取值为5,即5-gram,其操作步骤包含以下两个方面:...

【专利技术属性】
技术研发人员:魏建国何铭徐君海
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1