语音识别方法、控制方法、模型训练方法及其装置制造方法及图纸

技术编号：33124567 阅读：8 留言：0更新日期：2022-04-17 00:32

本申请公开了一种语音识别方法、控制方法、模型训练方法及其装置，涉及深度学习领域、人工智能领域及语音技术领域。具体实现方案为：基于语音交互设备操作者的标识信息，获取与语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型；基于VAD截断时间，采集语音交互设备操作者的第一语音信息；基于与方言类型对应的方言语音识别模型，对第一语音信息进行识别。本申请可以有效解决多人共用语音交互设备阶段对特定操作者的语音交互说的慢、方言口音严重的问题，提高语音识别准确度。提高语音识别准确度。提高语音识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、控制方法、模型训练方法及其装置

[0001]本申请涉及计算机
，尤其涉及深度学习领域、人工智能领域及语音
，特别涉及一种语音识别方法、语音交互设备的控制方法、截断时间优化模型训练方法及其装置。

技术介绍

[0002]随着老龄化社会的发展，老人的占比在逐年提升，老年群体因为其记忆差，视力差，学习力差等生理特性，经常在各种电子设备前望而怯步，而语音交互可以帮助老人跨越电子设备的使用鸿沟。但是，针对老人语音交互阶段，相关技术中的语音识别技术往往存在识别不准确等问题。

技术实现思路

[0003]本申请提供了一种语音识别方法、语音交互设备的控制方法、截断时间优化模型训练方法及其装置，可应用于语音交互场景。
[0004]根据本申请的第一方面，提供了一种语音识别方法，包括：
[0005]基于语音交互设备操作者的标识信息，获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型；
[0006]基于所述VAD截断时间，采集所述语音交互设备操作者的第一语音信息；
[0007]基于与所述方言类型对应的方言语音识别模型，对所述第一语音信息进行识别。
[0008]根据本申请的第二方面，提供了一种语音交互设备的控制方法，包括：
[0009]获取采集到的语音交互设备操作者的语音信息；
[0010]对所述语音信息进行声纹特征识别，得到声纹特征信息；
[0011]基于所述声纹特征信息确定所述语音交互设备操作者为特定操作者，根据所述声...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，包括：基于语音交互设备操作者的标识信息，获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型；基于所述VAD截断时间，采集所述语音交互设备操作者的第一语音信息；基于与所述方言类型对应的方言语音识别模型，对所述第一语音信息进行识别。2.根据权利要求1所述的方法，其中，所述基于语音交互设备操作者的标识信息，获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型，包括：获取采集到的语音交互设备操作者的第二语音信息，并对所述第二语音信息进行声纹特征识别，得到声纹特征信息；根据所述声纹特征信息，获取与所述语音交互设备操作者对应的VAD截断时间和方言类型。3.根据权利要求2所述的方法，其中，根据所述声纹特征信息，获取与所述语音交互设备操作者对应的VAD截断时间，包括：根据所述声纹特征信息，从预先建立的声纹特征与VAD截断时间之间的映射关系中，获取与所述语音交互设备操作者对应的VAD截断时间。4.根据权利要求3所述的方法，还包括：获取所述语音交互设备操作者在预设时间段内与语音交互设备进行语音交互过程中所输入的第三语音信息；对所述第三语音信息进行处理，获得唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间；将所述第一间隔时间和所述第二间隔时间输入至经过训练的VAD截断时间优化模型，获得VAD截断时间预测值；基于所述VAD截断时间预测值，更新所述映射关系中与所述声纹特征信息对应的VAD截断时间。5.根据权利要求4所述的方法，其中，所述VAD截断时间优化模型通过由所述第三语音信息生成的训练样本进行模型参数调整。6.根据权利要求1所述的方法，其中，所述基于语音交互设备操作者的标识信息，获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型，包括：获取采集到的语音交互设备操作者的人脸图像信息；对所述人脸图像信息进行人脸特征识别，得到人脸特征信息；根据所述人脸特征信息，获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型。7.一种语音交互设备的控制方法，包括：获取采集到的语音交互设备操作者的语音信息；对所述语音信息进行声纹特征识别，得到声纹特征信息；基于所述声纹特征信息确定所述语音交互设备操作者为特定操作者，根据所述声纹特征信息，获取与所述特定操作者对应的语音激活检测VAD截断时间和方言类型；基于所述VAD截断时间和所述方言类型，控制所述语音交互设备与所述特定操作者进行语音交互。
8.根据权利要求7所述的方法，还包括：获取所述特定操作者在预设时间段内与所述语音交互设备进行语音交互过程中的录入语音信息；根据所述录入语音信息生成训练样本，所述训练样本中包括唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间、和所述录入语音信息的拾音时间；将所述唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间输入至预设的VAD截断时间优化模型，获得VAD截断时间预测值；基于所述拾音时间和所述VAD截断时间预测值，训练所述VAD截断时间优化模型。9.一种截断时间优化模型训练方法，其中，所述截断时间优化模型用于预测语音交互场景中语音激活检测VAD截断时间长度，所述方法包括：获取样本用户在与语音交互设备进行语音交互过程中的录入语音信息；根据所述录入语音信息生成训练样本，所述训练样本中包括唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间、和所述录入语音信息的拾音时间；将所述唤醒词与指令词之间的第一间隔时间、所述指令词中各分词间的第二间隔时间输入至初始模型，获得VAD截断时间预测值；基于所述拾音时间和所述VAD截断时间预测值，训练所述初始模型，获得模型参数，并基于所述模型参数生成所述VAD截断时间优化模型。10.一种语音识别装置，包括：第一获取模块，用于基于语音交互设备操作者的标识信息，获取与所述语音交互设备操作者对应的语音激活检测VAD截断时间和方言类型；采集模块，用于基于所述VAD截断时间，采集所述语音交互设备操作者的第一语音信息；识别模块，用于基于与所述方言类型对应的方言语音识别模型，对所述第...

【专利技术属性】
技术研发人员：赵鹏，沙砼，郭亚文，
申请(专利权)人：上海小度技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人