语音识别模型训练方法、语音识别方法及相关装置制造方法及图纸

技术编号:26532800 阅读:28 留言:0更新日期:2020-12-01 14:17
本发明专利技术实施例公开了一种语音识别模型训练方法、语音识别方法及相关装置,训练方法包括:获取训练语音和语音文本;合并字典和词典生成混合词典;采用字典对语音文本字编码得到字训练数据;根据混合词典对语音文本语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据;依次采用字训练数据、词义分词训练数据和随机分词训练数据训练语音识别模型。实现了语音文本可对应多种词训练数据,满足词训练所需的大量词训练数据,先后通过字训练数据和词训练数据来训练语音识别模型,使得语音识别模型既具备字建模良好的时序效果,又具备词建模良好的语义识别效果,再者,词训练数据包含随机分词训练数据,可以提高语音中不规范口语的识别率。

【技术实现步骤摘要】
语音识别模型训练方法、语音识别方法及相关装置
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备及存储介质。
技术介绍
在直播平台中,常常需要对大量直播间主播的内容进行监管,监管对象包括图像和语音,直播中的语音主要来源于主播说话所形成的语音。对于语音内容的监管,通常是将语音识别为文本,然后对文本进行甄别。在文本甄别过程中,关键词一般词的形式而不是单独的字,语音识别的准确度对后续文本甄别至关重要。然而,现阶段端到端语音识别中,深度神经网络大多以字为识别单位建模(字建模单元),即一个发音识别为一个字来生成识别文本。如对于“我去北京长城”的语音,在语音识别过程中,已经识别出“我去北京长”,对最后的“城”字识别的时候可能错误定位到了相似发音的“成”、“程”、“乘”上,从而后续文本甄别时无法准确定位到“长城”这个关键词上,即字建模对于整句识别在时序上有效果,但对于关键词的识别效果较差,而如果使用词建模,神经网络以“我”“去”“北京”“长城”为单位进行词识别,当识别出“本文档来自技高网...

【技术保护点】
1.一种语音识别模型训练方法,其特征在于,包括:/n获取训练语音以及所述训练语音的语音文本;/n合并预设字典和预设词典生成混合词典;/n采用所述预设字典对所述语音文本进行字编码得到字训练数据;/n根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据;/n依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型。/n

【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,包括:
获取训练语音以及所述训练语音的语音文本;
合并预设字典和预设词典生成混合词典;
采用所述预设字典对所述语音文本进行字编码得到字训练数据;
根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据;
依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型。


2.根据权利要求1所述的方法,其特征在于,所述合并预设字典和预设词典生成混合词典,包括:
合并所述预设字典和所述预设词典得到初始混合词典;
对所述初始混合词典进行去重处理得到最终的混合词典。


3.根据权利要求2所述的方法,其特征在于,所述预设字典和所述预设词典包括字和字的编码值,所述对所述初始混合词典进行去重处理得到最终的混合词典,包括:
在所述初始混合词典中查找重复的字;
从所述初始混合词典中删除来源于所述预设字典中所述重复的字和编码值,或者删除来源于所述预设词典中所述重复的字和编码值,得到最终的混合词典。


4.根据权利要求1所述的方法,其特征在于,所述预设字典包括字和字的编码值,所述采用所述预设字典对所述语音文本进行字编码得到字训练数据,包括:
从所述预设字典中查找所述语音文本中每个字的编码值;
按照每个字在所述语音文本中的顺序和每个字的所述编码值生成所述语音文本的第一编码序列;
将所述训练语音和所述第一编码序列作为字训练数据,其中,所述训练语音作为训练样本,所述第一编码序列作为样本标签。


5.根据权利要求1所述的方法,其特征在于,所述根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据,包括:
按照所述语音文本的语义信息对所述语音文本进行分词得到第一分词序列,以及对所述语音文本进行随机分词处理得到第二分词序列;
从所述混合词典中查找所述第一分词序列中每个分词的编码值,以及从所述混合词典中查找所述第二分词序列中每个分词的编码值;
按照所述第一分词序列中每个分词的编码值生成所述语音文本的第二编码序列,以及按照所述第二分词序列中每个分词的编码值生成所述语音文本的第三编码序列;
将所述训练语音和所述第二编码序列作为词义分词训练数据,以及将所述训练语音和所述第三编码序列作为随机分词训练数据,其中,所述训练语音作为所述词义分词训练数据和所述随机分词训练数据的训练样本,所述第二编码序列作为所述词义分词训练数据的样本标签,所述第三编码序列作为所述随机分词训练数据的样本标签。


6.根据权利要求1-5任一项所述的方法,其特征在于,所述依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型,包括:
初始化语音识别模型;
采用所述字训练数据来对所述初始化后的语音识别模型进行字训练得到第一语音识别模型;
采用所述词义分词训练数据和所述随机分词训练数据来对所述第一语音识别模型进行词训练得到训练好的语音识别模型。


7.根据权利要求6所述的方法,其特征在于,所述初始化语音识别模型,包括:
构建输出层长度等于所述混合词典的长度的语音识别模型。


8.根据权利要求6所述的方法,其特征在于,所述字训练数据包括所述训练语音和第一编码序列,所述采用所述字训练数据来对所述语音识别模型进行字训练得到第一语音识别模型,包括:
将所述训练语音输入所述初始化后的语音识别模型中得到第一预测编码序列;
...

【专利技术属性】
技术研发人员:唐浩雨
申请(专利权)人:广州市百果园信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1