一种语音文本重写模型构建方法、语音识别方法技术

技术编号:29046435 阅读:39 留言:0更新日期:2021-06-26 06:02
本申请公开了一种语音文本重写模型构建方法、语音识别方法,先利用样本语音的至少一个样本基础识别文本、样本标准识别文本、样本上文信息以及重写分类实际结果对待训练文本重写模型进行两阶段训练,得到语音文本重写模型,以使该语音文本重写模型具有较好地预测性能,以便在对目标用户输入的待识别语音进行语音识别得到至少一个待校正识别文本之后,可以由该语音文本重写模型根据该至少一个待校正识别文本以及该待识别语音的上文信息进行语音识别文本重写,得到并输出该待识别语音的目标语音识别文本,以使该目标语音识别文本能够更准确地表示出待识别语音携带的语音信息,如此能够提高语音识别准确性。此能够提高语音识别准确性。此能够提高语音识别准确性。

【技术实现步骤摘要】
一种语音文本重写模型构建方法、语音识别方法


[0001]本申请涉及计算机
,尤其涉及一种语音文本重写模型构建方法、语音识别方法。

技术介绍

[0002]随着人工智能技术的发展,作为人工智能技术中重要研究方向的语音识别技术逐渐应用于越来越多应用领域(例如,金融、运营商、政务、医疗、电商、餐饮酒店、教育培训、房地产以及汽车等应用领域)。其中,语音识别技术用于识别用户语音。
[0003]例如,对于人机交互设备来说,在人机交互设备输出提示信息(例如,“你今天心情如何”等)之后,该人机交互设备可以先接收目标用户针对该提示信息输入的用户语音(例如,携带有“我今天很开心”的用户语音),再利用语音识别技术对该用户语音进行分析,得到语音识别文本,以便后续能够基于该语音识别文本进行后续操作(例如,进行语义理解或者生成新的提示信息等)。
[0004]然而,因语音识别技术的相关实现方法存在缺陷,导致利用该相关实现方法无法准确地识别出用户语音中携带的语音信息,如此使得如何提高语音识别准确性成为一项亟待解决的技术问题。

技术实现思路

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音文本重写模型构建方法,其特征在于,所述方法包括:获取样本语音的至少一个样本基础识别文本、所述样本语音的样本标准识别文本、所述样本语音的样本上文信息和所述样本语音的重写分类实际结果;根据所述至少一个样本基础识别文本、所述样本标准识别文本和所述样本上文信息对待训练文本重写模型进行训练,得到待优化文本重写模型;根据所述至少一个样本基础识别文本、所述样本标准识别文本、所述样本上文信息和所述样本语音的重写分类实际结果对所述待优化文本重写模型进行训练,得到语音文本重写模型。2.根据权利要求1所述的方法,其特征在于,若所述样本基础识别文本的个数为Q,则所述根据所述至少一个样本基础识别文本、所述样本标准识别文本和所述样本上文信息对待训练文本重写模型进行训练,得到待优化文本重写模型,包括:对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本,并生成所述第q个样本掩码后文本的文本特征;其中,q为正整数,q≤Q,Q为正整数;生成所述样本上文信息的文本特征;将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型,得到所述待训练文本重写模型输出的所述样本语音的第一预测识别文本;根据所述样本语音的第一预测识别文本和所述样本语音的样本标准识别文本,更新所述待训练文本重写模型,并继续执行所述将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型的步骤,直至在达到第一停止条件时,根据所述待训练文本重写模型,确定所述待优化文本重写模型。3.根据权利要求2所述的方法,其特征在于,所述生成所述样本上文信息的文本特征,包括:对所述样本上文信息进行关键词提取,得到所述样本上文信息的关键词;根据所述样本上文信息的关键词,生成所述样本上文信息的文本特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述样本上文信息的关键词,生成所述样本上文信息的文本特征,包括:对所述样本上文信息的关键词进行向量化处理,得到所述样本上文信息的文本特征;或者,若所述样本上文信息的关键词包括N1个待处理对象,则所述根据所述样本上文信息的关键词,生成所述样本上文信息的文本特征,包括:对所述样本上文信息的关键词中第d个待处理对象进行文本编码,得到所述第d个待处理对象的文本编码结果;对所述第d个待处理对象进行位置编码,得到所述第d个待处理对象的位置编码结果;将所述第d个待处理对象的文本编码结果和所述第d个待处理对象的位置编码结果进行加和,得到所述第d个待处理对象的对象特征;其中,d为正整数,d≤N1,N1为正整数;将所述样本上文信息的关键词中第1个待处理对象的对象特征至第N1个待处理对象的对象特征的集合,确定为所述样本上文信息的文本特征。5.根据权利要求2所述的方法,其特征在于,若所述第q个样本掩码后文本包括Y
q
个待处理对象,则所述生成所述第q个样本掩码后文本的文本特征,包括:
对所述第q个样本掩码后文本中第y个待处理对象进行文本编码,得到所述第y个待处理对象的文本编码结果;对所述第y个待处理对象进行位置编码,得到所述第y个待处理对象的位置编码结果;根据所述第y个待处理对象的文本编码结果和所述第y个待处理对象的位置编码结果,确定所述第y个待处理对象的对象特征;其中,y为正整数,y≤Y
q
,Y
q
为正整数;将所述第q个样本掩码后文本中第1个待处理对象的对象特征至第Y
q
个待处理对象的对象特征的集合,确定为所述第q个样本掩码后文本的文本特征。6.根据权利要求5所述的方法,其特征在于,所述第y个待处理对象的对象特征的确定过程包括:将所述第y个待处理对象的文本编码结果和所述第y个待处理对象的位置编码结果进行加和,得到所述第y个待处理对象的对象特征;或者,所述第y个待处理对象的对象特征的确定过程包括:从预先构建的易混淆对象信息库中查询所述第y个待处理对象对应的K
y
个第一易混淆对象;其中,K
y
为正整数;对所述第y个待处理对象对应的第k个第一易混淆对象进行文本编码,得到所述第y个待处理对象对应的第k个第一易混淆对象特征;其中,k为正整数,且k≤K
y
;将所述第y个待处理对象对应的第1个第一易混淆对象特征至第K
y
个第一易混淆对象特征进行加权求和,得到所述第y个待处理对象的易混淆特征;其中,所述第k个第一易混淆对象特征的加权权重是根据所述第y个待处理对象与所述第k个第一易混淆对象之间的易混淆度确定的;k为正整数,且k≤K
y
;将所述第y个待处理对象的文本编码结果、所述第y个待处理对象的位置编码结果和所述第y个待处理对象的易混淆特征进行加和,得到所述第y个待处理对象的对象特征。7.根据权利要求2所述的方法,其特征在于,当所述待训练文本重写模型的训练过程批次数为R,所述待训练文本重写模型的第r批次训练集包括所述样本语音,且r为正整数,r≤R,R为正整数时,所述方法还包括:从至少一个候选注意力机制中随机选择所述待训练文本重写模型在第r批次训练过程中使用的注意力机制,确定为第r批次注意力机制;从预设映射表中查询所述第r批次注意力机制对应的掩码比例,确定为第r批次掩码比例;其中,所述预设映射表包括所述第r批次注意力机制和所述第r批次注意力机制对应的掩码比例之间的对应关系;所述对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本,包括:按照所述第r批次掩码比例对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本。8.根据权利要...

【专利技术属性】
技术研发人员:许胜强吴啟超唐刘建王岩胡加学赵乾
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1