一种基于深度神经网络的自动语音识别方法技术

技术编号:29875761 阅读:18 留言:0更新日期:2021-08-31 23:51
本发明专利技术提供的一种基于深度神经网络的自动语音识别方法,涉及自动语音识别领域。本发明专利技术通过采用Log Fbank作为声学特征,只需要40维特征就足够表达声学信号的特征,极大的简化的信号的处理过程和神经网络模型的大小;采用VGG加双向GRU结合的神经网络模型,加上GRU可以充分的利用语音前后帧的信息,从而得到最佳的识别效果。明通过CTC解码是将连续的相同结果合并,去除多余结果,并通过预先定义好的拼音列表映射得到识别出的拼音序列,无需对齐,免除人工对齐操作;通过采用隐马尔科夫语言模型,将拼音序列作为模型输入,并得到对应的文字识别结果;能给出同一个拼音对应不同文字的最佳识别结果,使自动语音识别的准确性大大提升。

【技术实现步骤摘要】
一种基于深度神经网络的自动语音识别方法
本专利技术涉及自动语音识别领域,尤其涉及一种基于深度神经网络的自动语音识别方法。
技术介绍
随着人机交互技术的不断发展,人机交互的方式也变得多种多样,从过去的通过文本输入交互,到现阶段的通过语音就能进行便捷的人机交互,这离不开不断进步的交互技术,其中,自动语音识别技术便是人机交互技术中极其重要的一环。自动语音识别技术(AutomaticSpeechRecognition,简称ASR),主要用于将采集到的人类语音中的自然语言内容转换为计算机可读的输入内容,而对自然语言的识别准确度、速度直接关乎于人机交互的有效性和实用性。故现阶段如何提高自动语音识别技术的准确度、速度便成为人机交互领域广泛讨论的问题。为此,申请号为:CN201811112506.6的专利技术申请提出了一种基于卷积神经网络的语音识别方法,该方法通过:对输入的原始语音信号进行预处理;提取出反映语音信号特征的关键特征参数,形成特征矢量序列;基于DCNN网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型。训练声学模型,得到训练好的声学模型;将待识别的特征矢量序列输入到训练好的声学模型中得到识别结果,将识别结果经过语言模型得到最终识别后的语言文字。该方法建模过程简单、容易训练,但采用的声学特征维数过多,其中含有很多冗余的信息,从而导致构建的神经网络模型过于庞大。并且,采用DCNN网络模型过于陈旧,对声学特征的学习能力不够,无法充分的利用语音前后帧之间的关联。又一申请号为:CN202010019733.5的专利技术申请提出了一种基于人工智能的自动语音识别方法及系统,该申请采用语音训练识别模块对语音特征及语音对应文字编码进行学习,先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本。这样在直接使用汉字映射表进行标签的编码和解码,不需要对文本进行音素编码解码,然后再解码为文本,简化了训练流程。但是,采用MFCC作为声学特征会存在声纹等冗余信息干扰,这些信息对单一的识别任务没有帮助。声学模型采用CRNN的神经网络模型结构会使其卷积神经网络的卷积核大小过大且卷积核的步长过大,导致对特征的处理不够细腻;后续使用了过深过大的循环神经网络,极其容易造成训练时梯度爆炸或者过拟合等后果。另一申请号为:CN201811538408.9的专利技术申请提出了一种语音识别训练系统及方法,该方法通过对输入语音进行预处理,使用CNN提取语音信号特征,使用RNN对特征进行识别,使用同音损失函数及近似损失函数进行拟合,最终达到语音识别的目的。该申请通过按照通常识别的误差将设置多个损失函数分别应对不同的情况,提供了系统的精度和速度。但是使用CRNN作为声学模型,会存在CNN对特征的学习能力不如VGG好,且RNN的训练难度较大;使用同音损失函数和近似损失函数进行拟合,需要对语音数据做对齐,工作量巨大等问题。因此,有必要提供一种新的,能提供更加优质的语音识别的方法及系统来解决上述技术问题。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于深度神经网络的自动语音识别方法,通过如下步骤进行自动语音识别:通过音频采集设备对原始语音信号进行采样,并得到原始语音数据;提取原始语音数据的LogFbank声学特征;构建声学模型;将LogFbank声学特征输入声学模型当中,得到声学模型输出数据;对声学模型输出数据进行CTC解码,并得到解码数据;通过预先设定的拼音列表对解码数据进行映射,得到拼音序列;将拼音序列输入语言模型中进行语言识别,并得到语言识别结果。具体的,作为更进一步的解决方案,所述音频采集设备以16000Hz采样率对原始语音信号进行采样,原始语音数据以16bit整型进行保存,且每份原始语音数据时长不超过4秒。作为更进一步的解决方案,提取原始语音数据的LogFbank声学特征需要进行如下步骤:通过高通滤波器对原始语音数据进行预加重;通过分帧函数对预加重数据进行分帧操作;将每一分帧带入窗函数进行加窗操作;对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱;通过梅尔滤波器组对能量谱进行点积运算,得到梅尔频谱图;对梅尔频谱图进行取对数变换;将取对数变换后的梅尔频谱图进行离散余弦变换。作为更进一步的解决方案,所述声学模型为采用VGG加Bi-GRU结合的神经网络声学模型,所述声学模型包括VGG层、Dense层和Bi-GRU层;所述声学模型通过如下步骤得到LogFbank声学特征的原始预测数据:将LogFbank声学特征作为输入到VGG层中并将输出送入到下一层进行处理,所述声学模型共设置有8组VGG层,所述8组VGG层依次首尾串连,并进行8次VGG计算,并得到最终的VGG层输出数据;将VGG层输出数据输入到Dense层中,进行特征平滑,得到特征平滑输出;将特征平滑输出放入Bi-GRU层进行计算,得到一次Bi-GRU层输出;将一次Bi-GRU层输出再次放入Bi-GRU层,得到二次Bi-GRU层输出;将二次Bi-GRU层输出输入到Dense层进行特征平滑,得到二次特征平滑输出;将二次特征平滑输出再次输入Dense层,得到声学模型输出数据。作为更进一步的解决方案,所述VGG层通过依次串连的第一CNN层、第二CNN层和Max_pooling层构成,其中,的第一CNN层和第二CNN层用于数据卷积化,Max_pooling层用于数据池化,所述第一CNN层的卷积核为5*5,所述第二CNN层的卷积核为3*3。作为更进一步的解决方案,所述CTC解码用于对声学模型输出数据进行CTC处理将连续出现的相同结果合并,去除多余结果。作为更进一步的解决方案,所述语言模型隐马尔科夫语言模型,所述语言模型将拼音序列作为模型输入,并得到对应的文字识别结果;所述语言模型通过如下步骤进行拼音-文字转化:S1将拼音序列作为输入,并通过声韵母分割处理法,得到以拼音音组为基本分割单元的拼音序列;S2通过拼音-文字字典将各个拼音音组映射得到对应的文字序列,其中,文字序列中保存着同一个拼音音组对应的不同汉字;S3将各个拼音音组对应文字序列中所有汉字的出现的初始概率值设置为1;S4将相邻的拼音音组对应文字序列中所有汉字按照两字词组进行排列组合;并保存为筛选序列;S5构建两字词频率词典,所述两字词概率词典中保存着常用两字词组、所属领域常用两字词组、其他两字词组和两字词组对应的出现频率值;S6将筛选序列中各排列组合的两字词组在两字词组词典中进行检索,若存在,则进行保留;若不存在,则删除;并得到最终的状态转移序列中;S7构建一字词频率词典,所述一字词频率词典中保存着常用一字词、所属领域一字词、其他一字词和一字词对应出现的频本文档来自技高网
...

【技术保护点】
1.一种基于深度神经网络的自动语音识别方法,其特征在于,通过如下步骤进行自动语音识别:/n通过音频采集设备对原始语音信号进行采样,并得到原始语音数据;/n提取原始语音数据的Log Fbank声学特征;/n构建声学模型;/n将Log Fbank声学特征输入声学模型当中,得到声学模型输出数据;/n对声学模型输出数据进行CTC解码,并得到解码数据;/n通过预先设定的拼音列表对解码数据进行映射,得到拼音序列;/n将拼音序列输入语言模型中进行语言识别,并得到语言识别结果。/n

【技术特征摘要】
1.一种基于深度神经网络的自动语音识别方法,其特征在于,通过如下步骤进行自动语音识别:
通过音频采集设备对原始语音信号进行采样,并得到原始语音数据;
提取原始语音数据的LogFbank声学特征;
构建声学模型;
将LogFbank声学特征输入声学模型当中,得到声学模型输出数据;
对声学模型输出数据进行CTC解码,并得到解码数据;
通过预先设定的拼音列表对解码数据进行映射,得到拼音序列;
将拼音序列输入语言模型中进行语言识别,并得到语言识别结果。


2.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法,其特征在于,所述音频采集设备以16000Hz采样率对原始语音信号进行采样,原始语音数据以16bit整型进行保存,且每份原始语音数据时长不超过4秒。


3.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法,其特征在于,提取原始语音数据的LogFbank声学特征需要进行如下步骤:
通过高通滤波器对原始语音数据进行预加重;
通过分帧函数对预加重数据进行分帧操作;
将每一分帧带入窗函数进行加窗操作;
对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱;
通过梅尔滤波器组对能量谱进行点积运算,得到梅尔频谱图;
对梅尔频谱图进行取对数变换;
将取对数变换后的梅尔频谱图进行离散余弦变换。


4.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法,其特征在于,所述声学模型为采用VGG加Bi-GRU结合的神经网络声学模型,所述声学模型包括VGG层、Dense层和Bi-GRU层;所述声学模型通过如下步骤得到LogFbank声学特征的原始预测数据:
将LogFbank声学特征作为输入到VGG层中并将输出送入到下一层进行处理,所述声学模型共设置有8组VGG层,所述8组VGG层依次首尾串连,并进行8次VGG计算,并得到最终的VGG层输出数据;
将VGG层输出数据输入到Dense层中,进行特征平滑,得到特征平滑输出;
将特征平滑输出放入Bi-GRU层进行计算,得到一次Bi-GRU层输出;
将一次Bi-GRU层输出再次放入Bi-GRU层,得到二次Bi-GRU层输出;
将二次Bi-GRU层输出输入到Dense层进行特征平滑,得到二次特征平滑输出;
将二次特征平滑输出再次输入Dense层,得到声学模型输出数据。


5.根据权利要求4所述的一种基于深度神经网络的自动语音识别方法,其特征在于,所述VGG层通过依次串连的第一CNN层、第二CNN层和Max_pooling层构成,其中,的第一CNN层和第二CNN层用于数据卷积化,Max_pooling层用于数据池化,所述第一CNN层的卷积核为5*5,所述第二CNN层的卷积核为3*3。


6.根据权利要求3所述的一种基于深度神经网络的自...

【专利技术属性】
技术研发人员:王蒙付志勇胡奎姜黎潘艾婷
申请(专利权)人:杭州芯声智能科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1