一种显示设备及语音识别方法技术

技术编号：42073077 阅读：30 留言：0更新日期：2024-07-19 16:53

本申请提供一种显示设备及语音识别方法，方法包括：获取用户输入的待识别语音，识别待识别语音以及从待识别语音中截取包含唤醒词的语音片段；提取语音片段中的第一声纹向量；从待识别语音中提取语音指令以及将第一声纹向量和语音指令输入到预训练的语音识别模型，语音识别模型是基于第二声纹向量训练获得的神经网络模型，第二声纹向量为基于多个说话者的声纹特征生成的向量；获取语音识别模型输出的对待识别语音的语音识别概率以及根据语音识别概率执行语音指令。所述方法可以将第一声纹向量和语音指令一起输入至预训练的语音识别模型，使语音识别模型只识别目标说话者的语音指令，提升语音识别的准确率，解决时语音识别结果准确率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音识别，尤其涉及一种显示设备及语音识别方法。

技术介绍

1、显示设备不仅可以输出电影、电视、图片等各种媒资，还可以具备语音识别的功能。语音识别也可以称作自动语音识别(automatic speech recognition，asr)，其目标是将包含在语音信号中的内容转换为计算机可读的输入，例如文本序列等。

2、语音识别的方法可以包括基于混合语音识别模型hybrid的混合语音识别方法和基于端到端模型end-to-end的端到端语音识别方法。混合语音识别方法，其整个语音识别系统可以分为很多小的模块。但混合语音识别方法过程较复杂，不易于实现。针对端到端语音识别方法，其整个语音识别系统主要是一个深度神经网络dnn模型。但该方法中存在的问题是，如果存在新的读音，需要用新的读音重新训练整个神经网络模型。通过端到端语音识别模型aed执行语音识别时，如果存在多个说话者，或者环境存在噪音干扰等情况时，则端到端语音识别方法有可能无法准确的识别出发出语音指令的目标说话者，出现语音识别错误的情况。

3、因此，在执行语音识别时...

【技术保护点】

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述控制器执行识别所述待识别语音，以及从所述待识别语音中截取包含所述唤醒词的语音片段，进一步被配置为：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器进一步被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述控制器执行为所述音频数据添加背景噪声，得到训练音频数据，进一步被配置为：

5.根据权利要求3所述的显示设备，其特征在于，通过预训练的分类神经网络模型提取所述第一声纹向量和所述第二声纹向量，所述分类神经网络模型从底部到顶部依次包括输入层...

【技术特征摘要】

1.一种显示设备，其特征在于，包括：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器进一步被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述控制器执行为所述音频数据添加背景噪声，得到训练音频数据，进一步被配置为：

5.根据权利要求3所述的显示设备，其特征在于，通过预训练的分类神经网络模型提取所述第一声纹向量和所述第二声纹向量，所述分类神经网络模型从底部到顶部依次包括输入层、隐藏层、声纹向量层和输出层；其中，所述输入层用于输入待提取声纹向量的音频数据，所述隐藏层用于对所述音频数据执...

【专利技术属性】
技术研发人员：张晓明，穆聪聪，
申请(专利权)人：海信电子科技武汉有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人