语音识别模型建立、语音识别方法、装置、设备和介质制造方法及图纸

技术编号：26794731 阅读：38 留言：0更新日期：2020-12-22 17:11

本发明专利技术公开了一种语音识别模型建立、语音识别方法、装置、设备和存储介质，包括：确定拼音建模单元和汉字词组建模单元；利用拼音建模单元确定音频训练集的拼音标签，利用汉字建模单元确定音频训练集的汉字词组标签；通过预先构建的多任务训练模型，利用拼音标签、汉字词组标签和音频训练集中音频特征进行训练，建立语音识别模型。本实施例中，通过汉字作为基础建模单元，避免出现过多的oov，然后在中文汉字的基础上加入高频词汇进行建模，使得模型在训练过程中对于常用词汇能够进行整体性的学习，同时，在汉字词组建模单元的基础上，引入拼音建模单元，以解决训练数据稀疏问题，使得模型能够更好的区分不同发音的汉字识别，提升模型鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别模型建立、语音识别方法、装置、设备和介质
本专利技术实施例涉及语音识别
，尤其涉及一种语音识别模型建立、语音识别方法、装置、设备和介质。
技术介绍
随着人工智能技术的发展，在音频处理场景下，存在识别出一段音频其对应的文本内容的情况。相关技术中，一般是采用多种训练方式对现有基础模型进行训练，得到训练好的语音识别模型。采用上述语音模型进行语音识别，得到其对应的文本内容。目前中文端到端语音识别模型中主流的建模单元有：汉字(character)，子词(Sub-words)，单词(word)，音节(Syllables)，上下文相关的音素信息(contextdependentphoneme,CDP)，上下文无关的音素信息(context-independentphonemes，CI-phonemes)等。相关技术中通常是以汉字，子词，拼音作为建模单元。以拼音作为建模单元，可以解决生僻汉字训练集覆盖不充分问题，使得模型对于拼音的区分更具有鲁棒性，但是以拼音作为建模单元，输出识别结果的可读性将会下降。以汉字作为...

【技术保护点】
1.一种语音识别模型建立方法，其特征在于，包括：/n确定拼音建模单元和汉字词组建模单元；/n利用所述拼音建模单元确定音频训练集的拼音标签，利用所述汉字建模单元确定音频训练集的汉字词组标签；/n通过预先构建的多任务训练模型，利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练，建立语音识别模型。/n

【技术特征摘要】
1.一种语音识别模型建立方法，其特征在于，包括：
确定拼音建模单元和汉字词组建模单元；
利用所述拼音建模单元确定音频训练集的拼音标签，利用所述汉字建模单元确定音频训练集的汉字词组标签；
通过预先构建的多任务训练模型，利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练，建立语音识别模型。

2.根据权利要求1中所述的方法，其特征在于，所述确定拼音建模单元，包括：
利用汉字转拼音工具，将文本训练集中的文本转换为拼音；
基于转换后的拼音确定拼音建模单元，其中，所述拼音包括音节和声调。

3.根据权利要求1中所述的方法，其特征在于，确定汉字词组建模单元，包括：
对第一文本训练集中的文本进行汉字分词，得到汉字词典；
统计所述第一文本训练集中的高频词组；
将所述高频词组添加至所述汉字词典中，得到汉字词组建模单元。

4.根据权利要求3中所述的方法，其特征在于，将所述高频词组添加至所述汉字词典中，得到汉字词组建模单元之后，还包括：
将第二文本训练集的文本中的所述高频词组进行标记；
对所述文本训练集的文本进行汉字分词；其中，在汉字分词过程后中，如果遇到被标记的高频词组，则被标记的的高频词组不进行分词；
将分词后的汉字添加至所述汉字词组建模单元，得到新的汉字词组建模单元。

5.根据权利要求1所述的方法，其特征在于，所述构建多任务训练模型，包括：
以transformer模型作为基础模型；
以transformer模型中的第一预设层作为编码层，以transformer模型中的第二预设层作为解码层；
以修正线性单元函数作为激活函数，构建多任务训练模型结构框架。

6.根据权利要求5所述的方法，其特征在于，所述构建多任务训练模型，还包括：
在transformer模型的解码层，构建以所述汉字词组建...

【专利技术属性】
技术研发人员：陈顺飞，
申请(专利权)人：浙江同花顺智能科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人