【技术实现步骤摘要】
一种基于深度神经网络声学模型的语音识别方法及系统
[0001]本专利技术属于语音识别
,具体涉及一种基于深度神经网络声学模型的语音识别方法及系统。
技术介绍
[0002]近年来,随着人工智能行业的迅速发展,语音识别技术得到了越来越多学术界和工业界的关注。作为语音交互领域的前端技术,语音识别发挥着至关重要的作用。它被广泛地应用于诸多人机交互系统中,例如智能客服系统,聊天机器人,个人智能助理以及智能家居等。
[0003]在经典的语音识别框架中,一个声学模型就是一组HMM(Hidden Markov Model),一般一个HMM的参数由初始概率、转移概率和观察概率三部分构成。根据声学模型可以计算某一帧声学特征在某一个状态上的对数观察概率,观察概率的经典建模方法是使用多个高斯分量加权叠加的高斯混合模型(Gaussian Mixtrue Mode,GMM),但是GMM不能学习深层非线性特征变换并且没有利用帧的上下文信息;目前常见的语音识别技术主要是基于HMM
‑
DNN框架搭建的,这样建模的优势是可以通过 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度神经网络声学模型的语音识别方法,其特征在于,包括以下步骤:S1、对待识别的语音进行滑动加窗预处理操作,提取声学特征;S2、构建深度神经网络声学模型并进行训练;S3、利用步骤S2训练好的深度神经网络声学模型计算步骤S1提取的声学特征对应的似然概率;S4、构建静态解码图,解码器通过静态解码图和步骤S3计算得到的似然概率,基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图作为解码网络,从解码网络中获取状态级别的词图并通过确定化得到词级别的词图;S5、获取步骤S4词级别词图的最优代价路径词图,得到词图最优状态序列对应的词序列,作为最终的识别结果,完成语音识别。2.根据权利要求1所述的方法,其特征在于,步骤S1具体为:S101、采集语音信号,经过采样和A/D转换后将模拟信号转变为数字信号;然后对数字信号滑动加窗实现分帧;S102、对每一帧做快速傅里叶变换,将时域信号转换为频域信号得到频谱样本点,将频谱样本点的实部乘以实部加上虚部乘以虚部得到对应的功率谱;S103、对功率谱应用梅尔滤波器组获得FBank声学特征,并对得到的梅尔滤波器对数能量向量做离散余弦变换获得不同维数的MFCC声学特征。3.根据权利要求1所述的方法,其特征在于,步骤S2具体为:S201、构建深度神经网络声学模型,TDNN为时域卷积层,通过子采样方法减小深度神经网络声学模型的大小,FLSTM Res为循环层,在FLSTM中引入残差结构,即输入层和投影层间加入一个快捷通道,拼接输入层和记忆单元处理后的输出,将拼接向量投影到对应位置的原始维数上;S202、对训练数据进行强制对齐以及生成模型训练特需的决策树,依赖分母有限状态机和分子有限状态机生成模型训练样本存档,采用基于数据并行的同步随机梯度下降训练方法训练深度神经网络声学模型,在训练过程中,根据一批训练样本计算梯度,然后按照设定的学习率调整权重,通过指定大迭代的次数,并设置初始学习率和终止学习率控制学习率的变化不断更新迭代得到最终声学模型。4.根据权利要求3所述的方法,其特征在于,基于数据并行的同步随机梯度下降训练方法中采用的目标函数为最大互信息J
MMI
如下:其中,w
m
表示第m个句子的标注文本,o
m
表示第m个句子的声学特征序列,θ表示模型参数,M为句子总数。5.根据权利要求3所述的方法,其特征在于,声学模型训练过程中,对神经网络进行纯序列建模,从头开始训练神经网络,训练时一个句子被拆分成若干个训练块并采用跳帧技术每三帧处理一次;分子词格和分母词格都被有限状态机代替并且所有训练数据公用一个分母有限状态机。6.根据权利要求1所述的方法,其特征在于,步骤S3具体为:
使用步骤S1计算得到的声学特征作为声学模型的输入,将中心帧的前后多帧语音特征一起输入声学模型;使用两个HMM状态建模一个音素的发音,根据训练好的声学模型,一次计算多帧语音信号的对数似然值,行对应于具体的那帧语音信号,列对应每一个转移边上transition
‑
id映射的pdf
‑
id值,得出声学后验概率结果。7.根据权利要求1所述的方法,其特征在于,步骤S4具体为:S401、对解码器进行初始化操作,生成第一...
【专利技术属性】
技术研发人员:范建存,马一航,周世豪,景海婷,杨涛,左良玉,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。