【技术实现步骤摘要】
语音识别模型建立、语音识别方法、装置、设备和介质
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别模型建立、语音识别方法、装置、设备和介质。
技术介绍
随着人工智能技术的发展,在音频处理场景下,存在识别出一段音频其对应的文本内容的情况。相关技术中,一般是采用多种训练方式对现有基础模型进行训练,得到训练好的语音识别模型。采用上述语音模型进行语音识别,得到其对应的文本内容。目前中文端到端语音识别模型中主流的建模单元有:汉字(character),子词(Sub-words),单词(word),音节(Syllables),上下文相关的音素信息(contextdependentphoneme,CDP),上下文无关的音素信息(context-independentphonemes,CI-phonemes)等。相关技术中通常是以汉字,子词,拼音作为建模单元。以拼音作为建模单元,可以解决生僻汉字训练集覆盖不充分问题,使得模型对于拼音的区分更具有鲁棒性,但是以拼音作为建模单元,输出识别结果的可读性将会下降。以汉字作为 ...
【技术保护点】
1.一种语音识别模型建立方法,其特征在于,包括:/n确定拼音建模单元和汉字词组建模单元;/n利用所述拼音建模单元确定音频训练集的拼音标签,利用所述汉字建模单元确定音频训练集的汉字词组标签;/n通过预先构建的多任务训练模型,利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练,建立语音识别模型。/n
【技术特征摘要】
1.一种语音识别模型建立方法,其特征在于,包括:
确定拼音建模单元和汉字词组建模单元;
利用所述拼音建模单元确定音频训练集的拼音标签,利用所述汉字建模单元确定音频训练集的汉字词组标签;
通过预先构建的多任务训练模型,利用所述拼音标签、所述汉字词组标签和所述音频训练集中音频特征进行训练,建立语音识别模型。
2.根据权利要求1中所述的方法,其特征在于,所述确定拼音建模单元,包括:
利用汉字转拼音工具,将文本训练集中的文本转换为拼音;
基于转换后的拼音确定拼音建模单元,其中,所述拼音包括音节和声调。
3.根据权利要求1中所述的方法,其特征在于,确定汉字词组建模单元,包括:
对第一文本训练集中的文本进行汉字分词,得到汉字词典;
统计所述第一文本训练集中的高频词组;
将所述高频词组添加至所述汉字词典中,得到汉字词组建模单元。
4.根据权利要求3中所述的方法,其特征在于,将所述高频词组添加至所述汉字词典中,得到汉字词组建模单元之后,还包括:
将第二文本训练集的文本中的所述高频词组进行标记;
对所述文本训练集的文本进行汉字分词;其中,在汉字分词过程后中,如果遇到被标记的高频词组,则被标记的的高频词组不进行分词;
将分词后的汉字添加至所述汉字词组建模单元,得到新的汉字词组建模单元。
5.根据权利要求1所述的方法,其特征在于,所述构建多任务训练模型,包括:
以transformer模型作为基础模型;
以transformer模型中的第一预设层作为编码层,以transformer模型中的第二预设层作为解码层;
以修正线性单元函数作为激活函数,构建多任务训练模型结构框架。
6.根据权利要求5所述的方法,其特征在于,所述构建多任务训练模型,还包括:
在transformer模型的解码层,构建以所述汉字词组建...
【专利技术属性】
技术研发人员:陈顺飞,
申请(专利权)人:浙江同花顺智能科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。