当前位置: 首页 > 专利查询>浙江大学专利>正文

一种语音输入矫正处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28424842 阅读:10 留言:0更新日期:2021-05-11 18:33
本申请提供一种语音输入矫正处理方法、装置、电子设备及存储介质,涉及语音识别技术领域。该方法包括:获取用户输入的待识别语音;对第一待识别语音进行特征提取,得到待识别语音特征;采用用户对应的语音矫正模型,对待识别语音特征进行识别,得到待识别语音对应的识别文本,语音矫正模型根据训练语音特征和指定文本进行模型训练得到,训练语音特征根据用户朗读指定文本的训练语音进行特征提取得到,指定文本为满足预设音节组合条件的指定文本;获取用户输入的针对识别文本的更新文本;根据更新文本,以及待识别语音特征,对语音矫正模型进行更新。本申请可减小对于发音不标准用户基于语音识别技术的语音沟通障碍,提高用户的使用体验。

【技术实现步骤摘要】
一种语音输入矫正处理方法、装置、电子设备及存储介质
本申请涉及语音识别
,具体而言,涉及一种语音输入矫正处理方法、装置、电子设备及存储介质。
技术介绍
随着语音识别技术的发展,语音识别功能在越来越多的应用场景中被使用。目前的语音识别功能大多是采用语音识别模型实现,而语音识别模型的训练是采用基于标准语音的训练库进行训练。然而,在实际应用场景,用户的语言生长环境或者身体生理原因等多方面原因,都可能导致用户的发音可能不是很标准。对于这一部分发音不标准的用户,采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别等问题,使得这一部分用户使用语音识别技术的语音沟通存在很大的阻碍,严重影响用户的使用体验。
技术实现思路
本申请的目的在于,针对上述现有技术中的不足,提供一种语音输入矫正处理方法、装置、电子设备及存储介质,以减小对于发音不标准用户基于语音识别技术的语音沟通障碍,提高用户的使用体验。为实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供了一种语音输入矫正处理方法,包括:获取用户输入的第一待识别语音;对所述第一待识别语音进行特征提取,得到第一待识别语音特征;采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本,其中,所述用户对应的所述语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,所述训练语音特征根据训练语音进行特征提取得到,所述训练语音为获取的所述用户朗读第一指定文本的训练语音,所述第一指定文本为满足预设音节组合条件的指定文本;获取所述用户输入的针对所述第一识别文本的更新文本;根据所述更新文本,以及所述第一待识别语音特征,对所述语音矫正模型进行更新。可选的,所述方法还包括:获取所述用户输入的第二待识别语音;对所述第二待识别语音进行特征提取,得到第二待识别语音特征;采用更新后的所述语音矫正模型,对所述第二待识别语音特征进行识别,得到所述第二待识别语音对应的第二识别文本。可选的,所述采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本之前,所述方法还包括:获取针对所述用户的评价语音以及所述评价语音对应的文本;对所述评价语音进行特征提取,得到所述用户的评价语音特征;根据所述评价语音特征和所述评价语音对应的文本对所述用户对应的所述语音矫正模型进行矫正。可选的,所述获取针对所述用户的评价语音以及所述评价语音对应的文本,包括:获取所述用户朗读第二指定文本的语音,其中,所述第二指定文本和所述第一指定文本为不同的指定文本;根据所述第二指定文本的语音和所述第二指定文本,生成所述第二指定文本的目标语音,所述评价语音包括:所述目标语音,所述评价语音对应的文本还包括:所述第二指定文本。可选的,所述根据所述第二指定文本的语音和所述第二指定文本,生成所述第二指定文本的目标语音,包括:对所述第二指定文本的语音进行特征提取,得到所述用户的指定语音特征;采用所述语音矫正模型,对所述指定语音特征进行识别,得到所述用户的第三识别文本;检测所述第三识别文本和所述第二指定文本中是否存在不匹配的异常文本;若存在不匹配的异常文本,则提示并获取所述用户重新朗读所述异常文本对应的语音,直至基于重新朗读的所述异常文本对应的语音所识别的文本与所述异常文本匹配;所述目标语音包括:所述第二指定文本的语音中匹配文本对应的语音,以及匹配时重新朗读的所述异常文本对应的语音。可选的,所述获取针对所述用户的评价语音以及所述评价语音对应的文本,包括:获取所述用户朗读的日常语音以及所述用户输入的所述日常语音对应的文本,所述评价语音包括:所述日常语音,所述评价语音对应的文本包括:所述日常语音对应的文本。可选的,所述方法还包括:采用矫正后的所述语音矫正模型,对所述评价语音特征进行识别,得到第四识别文本;根据所述第四识别文本和所述评价语音对应的文本,确定矫正后的所述语音矫正模型的识别误差;若所述识别误差大于或等于预设的误差阈值,则重新获取所述用户的评价语音以及评价语音对应的文本,直至基于重新获取的评价语音和文本所矫正后的所述语音矫正模型的识别误差小于所述误差阈值。可选的,所述预设音节组合条件为:音节组合的使用频率大于或等于预设使用频率,或者,音节组合的数量大于或等于预设数量阈值,或者,所有音节组合。第二方面,本申请实施例还提供一种模型获取装置,包括:第一获取模块,用于获取用户输入的第一待识别语音;特征提取模块,用于对所述第一待识别语音进行特征提取,得到第一待识别语音特征;识别模块,用于采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本,其中,所述用户对应的所述语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,所述训练语音特征根据训练语音进行特征提取得到,所述训练语音为获取的所述用户朗读第一指定文本的训练语音,所述第一指定文本为满足预设音节组合条件的指定文本;第二获取模块,用于获取所述用户输入的针对所述第一识别文本的更新文本;更新模块,用于根据所述更新文本,以及所述第一待识别语音特征,对所述语音矫正模型进行更新。第三方面,本申请实施例还提供一种电子设备,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所提供的任一语音输入矫正处理方法。第四方面,本申请实施例还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面所提供的任一所述的语音输入矫正处理方法。本申请的有益效果是:本申请所提供的一种语音输入矫正处理方法、装置、电子设备及存储介质中,可通过获取用户输入的第一待识别语音,对第一待识别语音进行特征提取得到第一待识别语音特征,采用用户对应的语音矫正模型,对第一待识别语音特征进行识别,得到第一待识别语音对应的第一识别文本,还可获取用户输入的针对第一识别文本的更新文本;根据更新文本以及第一待识别语音特征,对语音矫正模型进行更新。由于该方法中所采用的用户对应的语音矫正模型是根据训练语音特征和第一指定文本进行模型训练得到,该训练语音特征根据用户朗读第一指定文本的训练语音进行特征提取得到的,第一指定文本为满足预设音节组合条件的指定文本,并非随意指定的文本以及语音或者通用的文本和语音进行训练得到的模型,那么基于训练语音特征和第一指定文本的模型训练过程,可准确高效的学习到针对该用户的语言习惯,使得基于模型训练得到语音矫正模型针对该用户的语音识别准确度更高,并且,该方法中还可在识别之后,基于用户输入的针对识别文本的更新文本以及待识别语音特征对语音矫正模型进行更新,实现了模本文档来自技高网...

【技术保护点】
1.一种语音输入矫正处理方法,其特征在于,包括:/n获取用户输入的第一待识别语音;/n对所述第一待识别语音进行特征提取,得到第一待识别语音特征;/n采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本,其中,所述用户对应的所述语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,所述训练语音特征根据训练语音进行特征提取得到,所述训练语音为获取的所述用户朗读第一指定文本的训练语音,所述第一指定文本为满足预设音节组合条件的指定文本;/n获取所述用户输入的针对所述第一识别文本的更新文本;/n根据所述更新文本,以及所述第一待识别语音特征,对所述语音矫正模型进行更新。/n

【技术特征摘要】
1.一种语音输入矫正处理方法,其特征在于,包括:
获取用户输入的第一待识别语音;
对所述第一待识别语音进行特征提取,得到第一待识别语音特征;
采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本,其中,所述用户对应的所述语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,所述训练语音特征根据训练语音进行特征提取得到,所述训练语音为获取的所述用户朗读第一指定文本的训练语音,所述第一指定文本为满足预设音节组合条件的指定文本;
获取所述用户输入的针对所述第一识别文本的更新文本;
根据所述更新文本,以及所述第一待识别语音特征,对所述语音矫正模型进行更新。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述用户输入的第二待识别语音;
对所述第二待识别语音进行特征提取,得到第二待识别语音特征;
采用更新后的所述语音矫正模型,对所述第二待识别语音特征进行识别,得到所述第二待识别语音对应的第二识别文本。


3.根据权利要求1所述的方法,其特征在于,所述采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本之前,所述方法还包括:
获取针对所述用户的评价语音以及所述评价语音对应的文本;
对所述评价语音进行特征提取,得到所述用户的评价语音特征;
根据所述评价语音特征和所述评价语音对应的文本对所述用户对应的所述语音矫正模型进行矫正。


4.根据权利要求3所述的方法,其特征在于,所述获取针对所述用户的评价语音以及所述评价语音对应的文本,包括:
获取所述用户朗读第二指定文本的语音,其中,所述第二指定文本和所述第一指定文本为不同的指定文本;
根据所述第二指定文本的语音和所述第二指定文本,生成所述第二指定文本的目标语音,所述评价语音包括:所述目标语音,所述评价语音对应的文本还包括:所述第二指定文本。


5.根据权利要求4所述的方法,其特征在于,所述根据所述第二指定文本的语音和所述第二指定文本,生成所述第二指定文本的目标语音,包括:
对所述第二指定文本的语音进行特征提取,得到所述用户的指定语音特征;
采用所述语音矫正模型,对所述指定语音特征进行识别,得到所述用户的第三识别文本;
检测所述第三识别文本和所述第二指定文本中是否存在不匹配的异常文本;
若存在不匹配的异常文本,则提示并获取所述用户重新朗读所述异常文本对应的语音,直至基于重新朗读的...

【专利技术属性】
技术研发人员:胡志鹏杨天格卜佳俊
申请(专利权)人:浙江大学网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1