一种基于深度神经网络的自动语音识别方法技术

技术编号：29875761 阅读：18 留言：0更新日期：2021-08-31 23:51

本发明专利技术提供的一种基于深度神经网络的自动语音识别方法，涉及自动语音识别领域。本发明专利技术通过采用Log Fbank作为声学特征，只需要40维特征就足够表达声学信号的特征，极大的简化的信号的处理过程和神经网络模型的大小；采用VGG加双向GRU结合的神经网络模型，加上GRU可以充分的利用语音前后帧的信息，从而得到最佳的识别效果。明通过CTC解码是将连续的相同结果合并，去除多余结果，并通过预先定义好的拼音列表映射得到识别出的拼音序列，无需对齐，免除人工对齐操作；通过采用隐马尔科夫语言模型，将拼音序列作为模型输入，并得到对应的文字识别结果；能给出同一个拼音对应不同文字的最佳识别结果，使自动语音识别的准确性大大提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的自动语音识别方法
本专利技术涉及自动语音识别领域，尤其涉及一种基于深度神经网络的自动语音识别方法。
技术介绍
随着人机交互技术的不断发展，人机交互的方式也变得多种多样，从过去的通过文本输入交互，到现阶段的通过语音就能进行便捷的人机交互，这离不开不断进步的交互技术，其中，自动语音识别技术便是人机交互技术中极其重要的一环。自动语音识别技术(AutomaticSpeechRecognition，简称ASR)，主要用于将采集到的人类语音中的自然语言内容转换为计算机可读的输入内容，而对自然语言的识别准确度、速度直接关乎于人机交互的有效性和实用性。故现阶段如何提高自动语音识别技术的准确度、速度便成为人机交互领域广泛讨论的问题。为此，申请号为：CN201811112506.6的专利技术申请提出了一种基于卷积神经网络的语音识别方法，该方法通过：对输入的原始语音信号进行预处理；提取出反映语音信号特征的关键特征参数，形成特征矢量序列；基于DCNN网络模型为基础、以联结主义时间分类器CTC作为损失函数，构建端对端方式的声学模型。训练声学模型，得到训练好的声学模型；将待识别的特征矢量序列输入到训练好的声学模型中得到识别结果，将识别结果经过语言模型得到最终识别后的语言文字。该方法建模过程简单、容易训练，但采用的声学特征维数过多，其中含有很多冗余的信息，从而导致构建的神经网络模型过于庞大。并且，采用DCNN网络模型过于陈旧，对声学特征的学习能力不够，无法充分的利用语音前后帧之间的关联。又一申...

【技术保护点】
1.一种基于深度神经网络的自动语音识别方法，其特征在于，通过如下步骤进行自动语音识别：/n通过音频采集设备对原始语音信号进行采样，并得到原始语音数据；/n提取原始语音数据的Log Fbank声学特征；/n构建声学模型；/n将Log Fbank声学特征输入声学模型当中，得到声学模型输出数据；/n对声学模型输出数据进行CTC解码，并得到解码数据；/n通过预先设定的拼音列表对解码数据进行映射，得到拼音序列；/n将拼音序列输入语言模型中进行语言识别，并得到语言识别结果。/n

【技术特征摘要】
1.一种基于深度神经网络的自动语音识别方法，其特征在于，通过如下步骤进行自动语音识别：
通过音频采集设备对原始语音信号进行采样，并得到原始语音数据；
提取原始语音数据的LogFbank声学特征；
构建声学模型；
将LogFbank声学特征输入声学模型当中，得到声学模型输出数据；
对声学模型输出数据进行CTC解码，并得到解码数据；
通过预先设定的拼音列表对解码数据进行映射，得到拼音序列；
将拼音序列输入语言模型中进行语言识别，并得到语言识别结果。

2.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述音频采集设备以16000Hz采样率对原始语音信号进行采样，原始语音数据以16bit整型进行保存，且每份原始语音数据时长不超过4秒。

3.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，提取原始语音数据的LogFbank声学特征需要进行如下步骤：
通过高通滤波器对原始语音数据进行预加重；
通过分帧函数对预加重数据进行分帧操作；
将每一分帧带入窗函数进行加窗操作；
对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱；
通过梅尔滤波器组对能量谱进行点积运算，得到梅尔频谱图；
对梅尔频谱图进行取对数变换；
将取对数变换后的梅尔频谱图进行离散余弦变换。

4.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述声学模型为采用VGG加Bi-GRU结合的神经网络声学模型，所述声学模型包括VGG层、Dense层和Bi-GRU层；所述声学模型通过如下步骤得到LogFbank声学特征的原始预测数据：
将LogFbank声学特征作为输入到VGG层中并将输出送入到下一层进行处理，所述声学模型共设置有8组VGG层，所述8组VGG层依次首尾串连，并进行8次VGG计算，并得到最终的VGG层输出数据；
将VGG层输出数据输入到Dense层中，进行特征平滑，得到特征平滑输出；
将特征平滑输出放入Bi-GRU层进行计算，得到一次Bi-GRU层输出；
将一次Bi-GRU层输出再次放入Bi-GRU层，得到二次Bi-GRU层输出；
将二次Bi-GRU层输出输入到Dense层进行特征平滑，得到二次特征平滑输出；
将二次特征平滑输出再次输入Dense层，得到声学模型输出数据。

5.根据权利要求4所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述VGG层通过依次串连的第一CNN层、第二CNN层和Max_pooling层构成，其中，的第一CNN层和第二CNN层用于数据卷积化，Max_pooling层用于数据池化，所述第一CNN层的卷积核为5*5，所述第二CNN层的卷积核为3*3。

6.根据权利要求3所述的一种基于深度神经网络的自...

【专利技术属性】
技术研发人员：王蒙，付志勇，胡奎，姜黎，潘艾婷，
申请(专利权)人：杭州芯声智能科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人