【技术实现步骤摘要】
一种语音识别声学模型建立方法及装置和电子设备
本专利技术涉及语音识别
,特别是涉及一种语音识别声学模型建立方法及装置和电子设备。
技术介绍
语音为典型的时序信号,因为背景噪声、信道、场景、说话人等因素导致语音信号非常复杂。语音识别技术是指将一段语音信号转换成文本的过程。目前,语音识别技术主要采用基于HMM(HiddenMarkovModel,隐马尔科夫模型)的混合建模方法,例如,GMM(GaussianMixtureModel,高斯混合模型)+HMM、DNN(DeepNeutralNetwork,深度神经网络)+HMM、CNN(ConvolutionNeuralNetwork,卷积神经网络)以及LSTM(LongShortTimeMemory,长短时记忆)+HMM等。现有技术中,混合建模方法都是以状态作为建模单元建立语音识别声学模型,也就是状态建模。这里,为了保证语音识别的正确率,状态建模要求建模单元为时长较短的、内部变化不丰富且上下文相关的发音单元,这导致的后果就是:采用混合建模方法建立的语音识别声学模型的泛化性能差,对语音识别的准确率较低,通常换个数据集 ...
【技术保护点】
1.一种语音识别声学模型建立方法,其特征在于,所述方法包括:基于深度神经网络,构建声学模型;其中,所述声学模型的建模单元为上下文无关的语音单元;获取训练数据,将所述训练数据中的语音信号转化成特征向量序列,将所述语音信号对应的标注文本转化成基于建模单元的标签序列;使用所述特征向量序列和所述标签序列,训练所述声学模型;将所述特征向量序列输入所述声学模型,统计每一建模单元的识别错误率;判断是否存在识别错误率高于阈值的建模单元;如果是,则将识别错误率高于阈值的建模单元拆分为一个以上的建模单元;根据拆分得到的建模单元,更新所述标签序列;使用所述特征向量序列和更新后的所述标签序列,继续 ...
【技术特征摘要】
1.一种语音识别声学模型建立方法,其特征在于,所述方法包括:基于深度神经网络,构建声学模型;其中,所述声学模型的建模单元为上下文无关的语音单元;获取训练数据,将所述训练数据中的语音信号转化成特征向量序列,将所述语音信号对应的标注文本转化成基于建模单元的标签序列;使用所述特征向量序列和所述标签序列,训练所述声学模型;将所述特征向量序列输入所述声学模型,统计每一建模单元的识别错误率;判断是否存在识别错误率高于阈值的建模单元;如果是,则将识别错误率高于阈值的建模单元拆分为一个以上的建模单元;根据拆分得到的建模单元,更新所述标签序列;使用所述特征向量序列和更新后的所述标签序列,继续训练所述声学模型,返回执行所述将所述特征向量序列输入所述声学模型,统计每一建模单元的识别错误率的步骤。2.根据权利要求1所述的方法,其特征在于,所述使用所述特征向量序列和所述标签序列,训练所述声学模型的步骤,包括:根据连接时序分类准则对所述标签序列进行变换;使用所述特征向量序列和变换后的所述标签序列,训练所述声学模型。3.根据权利要求2所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述标签序列,训练所述声学模型的步骤之前,所述方法还包括:使用特征向量与建模单元标签强制对齐的训练数据,对所述声学模型进行交叉熵训练。4.根据权利要求2所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述标签序列,训练所述声学模型的步骤之后,所述方法还包括:使用所述特征向量序列和所述标注文本,对所述声学模型进行区分度训练。5.根据权利要求1所述的方法,其特征在于,所述根据拆分得到的建模单元,更新所述标签序列的步骤,包括:根据拆分得到的建模单元的数量,使用聚类算法将被拆分的建模单元对应的所有特征向量划分至相同数量的集合中,使得每一拆分得到的建模单元对应一特征向量集合;使用拆分得到的建模单元的标签替换所述标签序列中被拆分的建模单元的标签。6.根据权利要求1-5任一项所述的方法,其特征在于,所述语音单元包括:音节和/或单词。7.一种语音识别声学模型建立方法,其特征在于,所述方法包括:基于深度神经网络,构建声学模型;其中,所述声学模型的建模单元为上下文无关的音节;获取训练数据,将所述训练数据中的语音信号转化成特征向量序列;使用所述特征向量序列和所述语音信号对应的标注文本,对所述声学模型进行区分度训练。8.根据权利要求7所述的方法,其特征在于,在所述使用所述特征向量序列和所述语音信号对应的标注文本,对所述声学模型进行区分度训练的步骤之前,包括:将所述语音信号对应的标注文本转化成基于建模单元的标签序列;使用所述特征向量序列和所述标签序列,训练所述声学模型。9.根据权利要求...
【专利技术属性】
技术研发人员:白锦峰,贾磊,
申请(专利权)人:北京猎户星空科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。