一种基于耳机的语音控制方法及系统技术方案

技术编号：19697466 阅读：14 留言：0更新日期：2018-12-08 12:39

本发明专利技术公开了一种基于耳机的语音控制方法及系统，其中方法包括耳机采集并缓存音频数据，进行第一次唤醒检测；第一次唤醒成功后，将缓存的音频数据发送给终端进行第二次唤醒检测；接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息指示唤醒成功，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。应用本发明专利技术所述方案，解放了用户的双手，无需手动操作即可通过语音实现对耳机及终端的控制；可以减少耳机上的物理按键数量，减小体积；提高了唤醒率，降低了误唤醒率；提高了用户的操作便捷性，提升了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于耳机的语音控制方法及系统
本专利技术涉及计算机应用技术，特别涉及基于耳机的语音控制方法及系统。
技术介绍
目前蓝牙耳机，其功能主要是用来接打电话，播放音乐等声音内容。其主控设备/芯片处理能力有限，控制方式多为按键触控式(中断)，包括接听、挂断、音量+、音量-、上一曲、下一曲等。需要手动控制物理按键或虚拟按键。在人的双手无法释放的时候，就无法控制，例如玩游戏、骑自行车等，双手被占用，则无法通过物理按键或虚拟按键进行控制。按键数量有限，无法实现更多的控制。耳机上的物理按键或虚拟按键一般为3～5个，除完成上述接听、挂断、音量+、音量-、上一曲、下一曲等控制功能外，最多还有1～3个组合键功能，无法实现更多的控制功能。切换声音内容步骤繁多，不人性化。通过耳机上的物理按键或虚拟按键只能在同一应用中切换声音内容。在日常应用中，对于同一应用内的切换，如果用户想听到特定歌曲，则可能需要将进行多次上一曲或下一曲的操作才能找到特定歌曲。对于不同应用间的切换，比如从QQ音乐周杰伦的歌切换到喜马拉雅郭德纲的相声，则需要6个步骤：①拿出手机②解锁③关闭QQ音乐④打开喜马拉雅⑤选取喜马拉雅播放内容并播放⑥把手机放回兜里。这些操作无法通过耳机上的物理按键或虚拟按键实现。在很多情况下双手不能得到释放，例如玩游戏、骑自行车等，用户不得不停掉手上的事件，花6步的时间做一件声音内容切换的事情。对于蓝牙耳机，还可能存在手机不在用户身边的情况，用户还需要找到手机，进一步增加了操作的复杂度。另外，耳机上的物理按键不仅会占用耳机的空间，增加耳机体积，从而导致不便携带，还会由于多次的物理按...

【技术保护点】
1.一种基于耳机的语音控制方法，其特征在于，包括：耳机采集音频数据，进行第一次唤醒检测；第一次唤醒成功后，将所述音频数据发送给终端进行第二次唤醒检测；接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息为唤醒成功消息，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。

【技术特征摘要】
1.一种基于耳机的语音控制方法，其特征在于，包括：耳机采集音频数据，进行第一次唤醒检测；第一次唤醒成功后，将所述音频数据发送给终端进行第二次唤醒检测；接收终端发送的第二次唤醒检测响应消息；若所述第二次唤醒检测响应消息为唤醒成功消息，将用户语音数据发送给终端进行语音识别，以便所述终端执行所识别到的指令。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：接收并播放终端根据所识别到的指令发送的音频数据。3.根据权利要求1所述的方法，其特征在于，耳机采集音频数据，进行第一次唤醒检测包括：采集音频数据并进行缓存；对所述音频数据进行语音检测；对语音检测得到的语音段进行第一次唤醒检测。4.根据权利要求3所述的方法，其特征在于，采集音频数据并进行缓存包括：将所述耳机采集到的音频数据采用循环缓存器进行存储，所述循环缓存器能够在存储音频数据的同时向终端上传音频数据。5.根据权利要求3所述的方法，其特征在于，第二次唤醒检测采用的声学模型的检测精度高于第一次唤醒检测采用的声学模型，和/或，第二次唤醒检测采用的解码网络的检测精度高于第一次唤醒检测采用的解码网络；第二次唤醒检测的检测门限高于第一次唤醒的检测门限。6.根据权利要求1所述的方法，其特征在于，若所述第二次唤醒检测响应消息为唤醒成功消息，将用户语音数据发送给终端进行语音识别包括：将缓存的用户语音数据发送给终端进行语音识别；或，向用户播放提示消息，采集到用户收到语音提示消息后发出的用户语音数据，将所述用户语音数据发送给终端进行语音识别。7.一种基于耳机的语音控制方法，其特征在于，包括：接收耳机第一次唤醒检测成功后所发送的音频数据，根据所述音频数据进行第二次唤醒检测；向耳机发送第二次唤醒检测响应消息；所述第二次唤醒检测响应消息为唤醒成功提示消息或误唤醒提示消息；接收耳机接收到唤醒成功提示消息后发送的用户语音数据，对所述用户语音数据进行语音识别，执行所识别到的指令。8.根据权利要求7所述的方法，其特征在于，所述音频数据为耳机进行第一次唤醒检测的音频数据。9.根据权利要求7所述的方法，其特征在于，第二次唤醒检测采用的声学模型的检测精度高于第一次唤醒检测采用的声学模型，和/或，第二次唤醒检测采用的解码网络的检测精度高于第一次唤醒检测采用的解码网络；第二次唤醒检测的检测门限高于第一次唤醒的检测门限。10.根据权利要求7所述的方法，其特征在于，所述向耳机发送第二次唤醒检测响应消息包括：向耳机发送唤醒成功提示消息，提示耳机将缓存的用户语音数据发送给终端进行语音识别；或，向耳机发送唤醒成功提示消息，提示用户发出语音操作指令，由耳机将所述语音操作指令对应的用户语音数据发送给终端进行语音识别。11.根据权利要求7所述的方法，其特征在于，对所述用户语音数据进行语音识别包括：在本地对所述用户语音数据进行语音识别，或，将所述用户语音数据发送到云端进行语音识别。12.一种基于耳机的语音控制系统，其特征在于，包括：第一次唤醒检测模块，用于采集音频数据，进行第一次唤醒检测；音频数据发送模块，用于第一次唤醒成功后，将所述音频数据发送给终端进行第二次唤醒检测；用户语音数据发...

【专利技术属性】
技术研发人员：李憬然，田超，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人