语音识别方法、控制方法、模型训练方法及其装置制造方法及图纸

技术编号:33124567 阅读:8 留言:0更新日期:2022-04-17 00:32
本申请公开了一种语音识别方法、控制方法、模型训练方法及其装置,涉及深度学习领域、人工智能领域及语音技术领域。具体实现方案为:基于语音交互设备操作者的标识信息,获取与语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型;基于VAD截断时间,采集语音交互设备操作者的第一语音信息;基于与方言类型对应的方言语音识别模型,对第一语音信息进行识别。本申请可以有效解决多人共用语音交互设备阶段对特定操作者的语音交互说的慢、方言口音严重的问题,提高语音识别准确度。提高语音识别准确度。提高语音识别准确度。

【技术实现步骤摘要】
语音识别方法、控制方法、模型训练方法及其装置


[0001]本申请涉及计算机
,尤其涉及深度学习领域、人工智能领域及语音
,特别涉及一种语音识别方法、语音交互设备的控制方法、截断时间优化模型训练方法及其装置。

技术介绍

[0002]随着老龄化社会的发展,老人的占比在逐年提升,老年群体因为其记忆差,视力差,学习力差等生理特性,经常在各种电子设备前望而怯步,而语音交互可以帮助老人跨越电子设备的使用鸿沟。但是,针对老人语音交互阶段,相关技术中的语音识别技术往往存在识别不准确等问题。

技术实现思路

[0003]本申请提供了一种语音识别方法、语音交互设备的控制方法、截断时间优化模型训练方法及其装置,可应用于语音交互场景。
[0004]根据本申请的第一方面,提供了一种语音识别方法,包括:
[0005]基于语音交互设备操作者的标识信息,获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型;
[0006]基于所述VAD截断时间,采集所述语音交互设备操作者的第一语音信息;
[0007]基于与所述方言类型对应的方言语音识别模型,对所述第一语音信息进行识别。
[0008]根据本申请的第二方面,提供了一种语音交互设备的控制方法,包括:
[0009]获取采集到的语音交互设备操作者的语音信息;
[0010]对所述语音信息进行声纹特征识别,得到声纹特征信息;
[0011]基于所述声纹特征信息确定所述语音交互设备操作者为特定操作者,根据所述声纹特征信息,获取与所述特定操作者对应的语音激活检测VAD截断时间和方言类型;
[0012]基于所述VAD截断时间和所述方言类型,控制所述语音交互设备与所述特定操作者进行语音交互。
[0013]根据本申请的第三方面,提供了一种截断时间优化模型训练方法,其中,所述截断时间优化模型用于预测语音交互场景中语音激活检测VAD截断时间长度,所述方法包括:
[0014]获取样本用户在与语音交互设备进行语音交互过程中的录入语音信息;
[0015]根据所述录入语音信息生成训练样本,所述训练样本中包括唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间、和所述录入语音信息的拾音时间;
[0016]将所述唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间输入至初始模型,获得VAD截断时间预测值;
[0017]基于所述拾音时间和所述VAD截断时间预测值,训练所述初始模型,获得模型参数,并基于所述模型参数生成所述VAD截断时间优化模型。
[0018]根据本申请的第四方面,提供了一种语音识别装置,包括:
[0019]第一获取模块,用于基于语音交互设备操作者的标识信息,获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型;
[0020]采集模块,用于基于所述VAD截断时间,采集所述语音交互设备操作者的第一语音信息;
[0021]识别模块,用于基于与所述方言类型对应的方言语音识别模型,对所述第一语音信息进行识别。
[0022]根据本申请的第五方面,提供了一种语音交互设备的控制装置,包括:
[0023]第一获取模块,用于获取采集到的语音交互设备操作者的语音信息;
[0024]识别模块,用于对所述语音信息进行声纹特征识别,得到声纹特征信息;
[0025]第二获取模块,用于基于所述声纹特征信息确定所述语音交互设备操作者为特定操作者,根据所述声纹特征信息,获取与所述特定操作者对应的语音激活检测VAD截断时间和方言类型;
[0026]控制模块,用于基于所述VAD截断时间和所述方言类型,控制所述语音交互设备与所述特定操作者进行语音交互。
[0027]根据本申请的第六方面,提供了一种截断时间优化模型训练装置,其中,所述截断时间优化模型用于预测语音交互场景中语音激活检测VAD截断时间长度,所述装置包括:
[0028]获取模块,用于获取样本用户在与语音交互设备进行语音交互过程中的录入语音信息;
[0029]生成模块,用于根据所述录入语音信息生成训练样本,所述训练样本中包括唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间、和所述录入语音信息的拾音时间;
[0030]预测模块,用于将所述唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间输入至初始模型,获得VAD截断时间预测值;
[0031]训练模块,用于基于所述拾音时间和所述VAD截断时间预测值,训练所述初始模型,获得模型参数,并基于所述模型参数生成所述VAD截断时间优化模型。
[0032]根据本申请的第七方面,提供了一种电子设备,包括:
[0033]至少一个处理器;以及
[0034]与所述至少一个处理器通信连接的存储器;其中,
[0035]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。
[0036]根据本申请的第八方面,提供了一种电子设备,包括:
[0037]至少一个处理器;以及
[0038]与所述至少一个处理器通信连接的存储器;其中,
[0039]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第二方面所述的方法。
[0040]根据本申请的第九方面,提供了一种电子设备,包括:
[0041]至少一个处理器;以及
[0042]与所述至少一个处理器通信连接的存储器;其中,
[0043]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第三方面所述的方法。
[0044]根据本申请的第十方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。
[0045]根据本申请的第十一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第二方面所述的方法。
[0046]根据本申请的第十二方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第三方面所述的方法。
[0047]根据本申请的第十三方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述第一方面所述方法的步骤。
[0048]根据本申请的第十四方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述第二方面所述方法的步骤。
[0049]根据本申请的第十五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述第三方面所述方法的步骤。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:基于语音交互设备操作者的标识信息,获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型;基于所述VAD截断时间,采集所述语音交互设备操作者的第一语音信息;基于与所述方言类型对应的方言语音识别模型,对所述第一语音信息进行识别。2.根据权利要求1所述的方法,其中,所述基于语音交互设备操作者的标识信息,获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型,包括:获取采集到的语音交互设备操作者的第二语音信息,并对所述第二语音信息进行声纹特征识别,得到声纹特征信息;根据所述声纹特征信息,获取与所述语音交互设备操作者对应的VAD截断时间和方言类型。3.根据权利要求2所述的方法,其中,根据所述声纹特征信息,获取与所述语音交互设备操作者对应的VAD截断时间,包括:根据所述声纹特征信息,从预先建立的声纹特征与VAD截断时间之间的映射关系中,获取与所述语音交互设备操作者对应的VAD截断时间。4.根据权利要求3所述的方法,还包括:获取所述语音交互设备操作者在预设时间段内与语音交互设备进行语音交互过程中所输入的第三语音信息;对所述第三语音信息进行处理,获得唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间;将所述第一间隔时间和所述第二间隔时间输入至经过训练的VAD截断时间优化模型,获得VAD截断时间预测值;基于所述VAD截断时间预测值,更新所述映射关系中与所述声纹特征信息对应的VAD截断时间。5.根据权利要求4所述的方法,其中,所述VAD截断时间优化模型通过由所述第三语音信息生成的训练样本进行模型参数调整。6.根据权利要求1所述的方法,其中,所述基于语音交互设备操作者的标识信息,获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型,包括:获取采集到的语音交互设备操作者的人脸图像信息;对所述人脸图像信息进行人脸特征识别,得到人脸特征信息;根据所述人脸特征信息,获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型。7.一种语音交互设备的控制方法,包括:获取采集到的语音交互设备操作者的语音信息;对所述语音信息进行声纹特征识别,得到声纹特征信息;基于所述声纹特征信息确定所述语音交互设备操作者为特定操作者,根据所述声纹特征信息,获取与所述特定操作者对应的语音激活检测VAD截断时间和方言类型;基于所述VAD截断时间和所述方言类型,控制所述语音交互设备与所述特定操作者进行语音交互。
8.根据权利要求7所述的方法,还包括:获取所述特定操作者在预设时间段内与所述语音交互设备进行语音交互过程中的录入语音信息;根据所述录入语音信息生成训练样本,所述训练样本中包括唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间、和所述录入语音信息的拾音时间;将所述唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间输入至预设的VAD截断时间优化模型,获得VAD截断时间预测值;基于所述拾音时间和所述VAD截断时间预测值,训练所述VAD截断时间优化模型。9.一种截断时间优化模型训练方法,其中,所述截断时间优化模型用于预测语音交互场景中语音激活检测VAD截断时间长度,所述方法包括:获取样本用户在与语音交互设备进行语音交互过程中的录入语音信息;根据所述录入语音信息生成训练样本,所述训练样本中包括唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间、和所述录入语音信息的拾音时间;将所述唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间输入至初始模型,获得VAD截断时间预测值;基于所述拾音时间和所述VAD截断时间预测值,训练所述初始模型,获得模型参数,并基于所述模型参数生成所述VAD截断时间优化模型。10.一种语音识别装置,包括:第一获取模块,用于基于语音交互设备操作者的标识信息,获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型;采集模块,用于基于所述VAD截断时间,采集所述语音交互设备操作者的第一语音信息;识别模块,用于基于与所述方言类型对应的方言语音识别模型,对所述第...

【专利技术属性】
技术研发人员:赵鹏沙砼郭亚文
申请(专利权)人:上海小度技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1