语音识别的建模方法、装置及设备制造方法及图纸

技术编号：21365279 阅读：31 留言：0更新日期：2019-06-15 10:10

本发明专利技术提出一种语音识别的建模方法、装置及设备，其中，方法包括：确定N类标签；根据普通话的语音数据训练和N类标签构建语音识别模型；根据语音识别模型获取P种方言的语音数据的识别文本；根据识别文本和标注的参考文本确定错误率，对于P种方言中每一种方言，根据每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值，根据差异值大于预设阈值的字对应的M类标签新生成M类目标标签；根据普通话和P种方言的语音数据训练声学模型，声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此，实现了普通话和方言混合建模，在保证识别准确性的同时，使同一个模型既支持普通话，又能支持多种方言。

Modeling Method, Device and Equipment of Speech Recognition

The invention provides a speech recognition modeling method, device and equipment, which includes: determining N-type labels; constructing speech recognition model according to speech data training of Putonghua and N-type labels; acquiring recognition text of P-type dialect speech data based on speech recognition model; determining error rate according to reference text of recognition text and annotation, and for each P-type dialect. In dialects, according to the first error rate of each word and the second error rate of each word in Putonghua, the difference value of acoustic characteristics of each word is determined. According to the M-type tags corresponding to the words whose difference value is greater than the preset threshold value, the M-type target tags are generated. According to the speech data of Putonghua and P-type dialects, the acoustic model is trained, and the output of the acoustic model is N-type tags corresponding to each dialect in P-type dialects. Class M target tags. Thus, the mixed model of Mandarin and dialect is realized. While ensuring the accuracy of recognition, the same model can support both Mandarin and multiple dialects.

全部详细技术资料下载

【技术实现步骤摘要】
语音识别的建模方法、装置及设备
本专利技术涉及语音识别
，尤其涉及一种语音识别的建模方法、装置及设备。
技术介绍
随着语音识别技术的发展，语音识别的性能已满足实用，例如手机上的各种输入法都带有语音交互功能。而在实际应用中，除了普通话场景的语音识别外，还存在方言场景的语音识别。目前已有许多支持方言语音识别的语音交互产品，比如手机输入法上语音识别可选项，用户可以根据需要选择对应的方言，再比如一些针对特定方言定制的智能电视、智能冰箱等。相关技术中，通常采用普通话识别模型对普通话进行语音识别，采用相应的方言识别模型对方言进行语音识别，而在用户在切换语言时，需要来回选择相应的语音识别模型，操作繁琐。并且，随着要支持的方言越来越多，工作量与维护成本较高。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的第一个目的在于提出一种语音识别的建模方法，实现了普通话和方言混合建模，在保证识别准确性的同时，使得同一个模型既支持普通话，又能支持多种方言，无需在多个模型之间切换，简化了用户操作，并且降低了维护成本。本专利技术的第二个目的在于提出一...

【技术保护点】
1.一种语音识别的建模方法，其特征在于，包括：根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理，获取每帧第一语音数据对应的标签，统计输出的标签并对相同类别的标签进行去重，确定N类标签，其中，N为正整数，P为正整数；根据普通话语音样本数据训练神经网络，并根据所述神经网络构建语音识别模型，其中，所述神经网络的输出为所述N类标签；将所述P种方言的第二语音数据分别输入到所述语音识别模型中进行处理，获取方言的第二语音数据的识别文本；根据所述识别文本和标注的参考文本，对于所述P种方言中每一种方言确定每个字的第一错误率，根据所述每个字的第一错误率和普通话中每个字的第二错误率确...

【技术特征摘要】
1.一种语音识别的建模方法，其特征在于，包括：根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理，获取每帧第一语音数据对应的标签，统计输出的标签并对相同类别的标签进行去重，确定N类标签，其中，N为正整数，P为正整数；根据普通话语音样本数据训练神经网络，并根据所述神经网络构建语音识别模型，其中，所述神经网络的输出为所述N类标签；将所述P种方言的第二语音数据分别输入到所述语音识别模型中进行处理，获取方言的第二语音数据的识别文本；根据所述识别文本和标注的参考文本，对于所述P种方言中每一种方言确定每个字的第一错误率，根据所述每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值，根据所述差异值大于预设阈值的字对应的M类标签新生成M类目标标签，其中，M为大于等于零的整数，所述第二错误率是根据所述语音识别模型对普通话的第二语音数据的处理结果得到的；根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型，其中，所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。2.如权利要求1所述的方法，其特征在于，所述根据所述识别文本和标注的参考文本，对于所述P种方言中每一种方言确定每个字的第一错误率包括：基于最小编辑距离对所述识别文本和所述参考文本进行字符匹配，确定每个字正确的个数；根据所述每个字正确的个数和所述每个字出现的总个数，确定所述每个字的第一错误率。3.如权利要求2所述的方法，其特征在于，所述根据所述每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值包括：根据如下公式确定所述差异值其中，Wf为方言中目标文字的错误率，Wp为普通话中所述目标文字的错误率，Wdiff为所述差异值。4.如权利要求1所述的方法，其特征在于，所述根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型包括：根据所述普通话的第三语音数据和与所述普通话的第三语音数据对应的第一标注标签，以及所述P种方言的第三语音数据和与所述P种方言的第三语音数据对应的第二标注标签，生成训练样本，其中，对于所述P种方言中每一种方言的第三语音数据，将原先标注的所述M类标签替换为对应的M类目标标签；根据预设的目标函数和所述训练样本训练预设模型的处理参数，生成所述声学模型。5.如权利要求1所述的方法，其特征在于，在根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理之前，还包括：获取普通话的第四语音数据和对应的文本信息；提取每帧第四语音数据的MFCC特征，根据所述MFCC特征和所述文本信息，基于最大似然估计训练混合高斯模型的参数，生成所述对齐模型。6.一种语音识别的建模装置，其特征在于，包括：对齐模块，用于根据预先训练的对齐模型分...

【专利技术属性】
技术研发人员：袁胜龙，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人