日语语音模型的训练方法以及交互方法、存储介质、设备技术

技术编号:36539979 阅读:45 留言:0更新日期:2023-02-01 16:35
本发明专利技术公开了一种日语语音模型的训练方法以及交互方法、存储介质、设备,该模型的训练方法包括:获取第一训练集,利用其中多个日语语音信息训练初始语音识别模型,得到目标语音识别模型,语音识别模型用于识别日语语音信息对应的文本;获取第二训练集,利用其中多组表记信息训练初始语义识别模型,得到目标语义识别模型,表记信息包括文本音素序列和由汉字文本表记、假名文本表记中至少一者组成的表记方式,语义识别模型用于识别文本中字或词在文本中的语义含义;将目标语音识别模型与目标语义识别模型拼接,得到日语语音交互模型。由此,能够从多种表记方式的文本中正确提取语义信息,提高语义识别正确率,并使其更符合人们日常阅读和书写习惯。读和书写习惯。读和书写习惯。

【技术实现步骤摘要】
日语语音模型的训练方法以及交互方法、存储介质、设备


[0001]本专利技术涉及语音
,具体涉及一种日语语音模型的训练方法以及交互方法、存储介质、设备。

技术介绍

[0002]随着电子类产品智能化程度越来越高,智能交互系统越来越多的被应用,其中智能语音交互系统是体现智能化非常重要的一个。随着产品出口需求的增加,多语种语音交互技术势必成为体现出口产品智能化非常重要的技术之一。
[0003]相关技术中,语音识别和语义理解是割裂的,对于日语这种存在多种表记文本方式的语种来说,语义理解模型很难对不同表记方式的文本抽取意图和槽位。同时,单纯的从语音识别来看,很难判断哪种表记方式更符合人们日常阅读和书写的习惯。因此,使得相关技术的效果较差。

技术实现思路

[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种日语语音模型的训练方法,该方法能够从多种表记方式的文本中正确提取语义信息,提高语义识别正确率,并使其更符合人们日常阅读和书写习惯。
[0005]本专利技术的第本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种日语语音交互模型的训练方法,其特征在于,包括:获取第一训练集,并利用所述第一训练集中的多个日语语音信息对初始语音识别模型进行训练,得到目标语音识别模型,其中,语音识别模型用于识别出所述日语语音信息对应的文本;获取第二训练集,并利用所述第二训练集中的多组表记信息对初始语义识别模型进行训练,得到目标语义识别模型,其中,所述表记信息包括文本音素序列和由汉字文本表记、假名文本表记中的至少一者组成的表记方式,语义识别模型用于识别所述文本中字或词在所述文本中的语义含义;将所述目标语音识别模型与所述目标语义识别模型进行拼接,得到日语语音交互模型。2.根据权利要求1所述的日语语音交互模型的训练方法,其特征在于,所述利用所述第一训练集中的多个日语语音信息对初始语音识别模型进行训练,得到目标语音识别模型,包括:对多个所述日语语音信息进行表记信息标注,得到多组表记信息;基于多个所述日语语音信息的表记信息对所述初始语音识别模型进行训练,得到所述目标语音识别模型。3.根据权利要求2所述的日语语音交互模型的训练方法,其特征在于,所述基于多个所述日语语音信息的表记信息对所述初始语音识别模型进行训练,得到所述目标语音识别模型,包括:针对每个日语语音信息,对该日语语音信息进行语音识别,得到语音状态序列,并根据所述语音状态序列得到一组预测表记信息;基于多个所述日语语音信息的表记信息,利用所述预测表记信息对所述初始语音识别模型进行有监督训练,得到所述目标语音识别模型。4.根据权利要求1所述的日语语音交互模型的训练方法,其特征在于,所述利用所述第二训练集中的多组表记信息对初始语义识别模型进行训练,得到目标语义识别模型,包括:对多组所述表记信息进行语音信息标注,得到多个语义信息;基于多组所述表记信息的语义信息对所述初始语义识别模型进行训练,得到所述目标语义识别模型。5.根据权利要求4所述的日语语音交互模型的训练方法,其特征在于,所述基于多组所述表记信息的语义信息对所述初始语义识别模型进行训练,得到所述目标语义识别模型,包括:针对每组所述表...

【专利技术属性】
技术研发人员:李深安邢猛王兴宝王雪初雷琴辉刘俊峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1