终端设备及语音唤醒方法技术

技术编号：37789748 阅读：21 留言：0更新日期：2023-06-09 09:20

本申请提供一种终端设备及语音唤醒方法，所述终端设备包括声音采集器、第一处理器和第二处理器，第一处理器可以响应于用户输入的唤醒语音，对唤醒语音进行特征提取，提取唤醒语音的语音特征值，并向第二处理器发送语音特征值，其中，语音特征值为包含唤醒词的频谱特征，频谱特征由唤醒语音经过语音信号处理得到，第二处理器可以响应于第一处理器发送的语音特征值，对语音特征值进行校验，以及在校验成功时，控制终端设备开启语音交互功能。所述方法可以将在唤醒语音中提取的语音特征值进行缓存，在唤醒词二次校验时，直接传输语音特征值进行二次校验，以降低占用的存储空间，提高唤醒响应速度。醒响应速度。醒响应速度。

全部详细技术资料下载

【技术实现步骤摘要】
终端设备及语音唤醒方法

[0001]本申请涉及语音交互
，尤其涉及一种终端设备及语音唤醒方法。

技术介绍

[0002]终端设备是指具有声音采集功能的电子设备，可以是智能电视、手机、智能音箱、电脑、机器人等电子设备。为了满足用户多样化和个性化需求，终端设备拥有语音识别技术，用户可以与终端设备进行语音交互。例如，在智能电视处于待机状态时，用户可利用语音识别技术唤醒智能电视，即通过远场语音指令唤醒智能电视，使智能电视从待机状态进入开机状态。
[0003]通常智能电视的唤醒过程为采集用户语音，对用户语音进行唤醒词识别，为了降低功耗，唤醒词识别通常是利用低功耗的小模型简单网络进行唤醒计算，当判断出有唤醒词时，向前回滚固定时间，保存对应的音频，将音频传输至大模型复杂网络进行唤醒计算，即二次校验是否是真的唤醒，如果是，则进入正常的唤醒、识别、语义理解及用户命令响应流程。
[0004]然而，为了降低功耗及成本，语音唤醒时能独立保存音频的空间较少，目前远场语音进行音频缓存的内存空间只有80K
‑
100K...

【技术保护点】

【技术特征摘要】
1.一种终端设备，其特征在于，包括：声音采集器，用于采集唤醒语音；第一处理器，被配置为：响应于用户输入的唤醒语音，从所述唤醒语音中提取语音特征值，以及向第二处理器发送所述语音特征值，所述语音特征值为包含唤醒词的频谱特征，所述频谱特征由所述唤醒语音经过语音信号处理得到；第二处理器，被配置为：响应于所述第一处理器发送的所述语音特征值，校验所述语音特征值，以及在校验成功时，控制所述终端设备开启语音交互功能。2.根据权利要求1所述的终端设备，其特征在于，所述第一处理器执行从所述唤醒语音中提取语音特征值的步骤之后，还被配置为：向所述第二处理器发送开启指令，以及响应于所述第二处理器反馈的开启回执信号，向所述第二处理器发送所述语音特征值；所述第二处理器，还被配置为：响应于所述第一处理器发送的开启指令，进入开机状态，以及在开机结束后向所述第一处理器反馈开启回执信号。3.根据权利要求1所述的终端设备，其特征在于，所述第一处理器还被配置为：获取所述唤醒语音的频谱特征，以及缓存所述频谱特征；检测唤醒状态，所述唤醒状态为对所述频谱特征进行唤醒词识别后的识别结果；所述唤醒状态包括唤醒词识别成功或唤醒词识别失败；如果所述唤醒状态为唤醒词识别成功，回滚定位包含唤醒词的频谱特征，以得到语音特征值；如果所述唤醒状态为唤醒词识别失败，过滤所述频谱特征。4.根据权利要求3所述的终端设备，其特征在于，所述第一处理器执行对所述频谱特征进行唤醒词识别，还被配置为：将所述频谱特征输入第一唤醒模型，以得到所述第一唤醒模型输出的所述频谱特征的唤醒值，所述唤醒值用于表征识别唤醒词的概率；如果所述唤醒值大于或等于唤醒阈值，确定所述唤醒状态为唤醒词识别成功；如果所述唤醒值小于所述唤醒阈值，确定所述唤醒状态为唤醒词识别失败。5.根据权利要求1所述的终端设备，其特征在于，所述第一处理器还被配置为：获取所述唤醒语音的语音信号；将所述语音信号拆分成多个帧音频数据段；计算所述帧音频数据段的功率谱，所述功率谱为所述帧音...

【专利技术属性】
技术研发人员：杨香斌，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人