一种语音交互的唤醒方法、装置及计算机可读存储介质制造方法及图纸

技术编号:17034998 阅读:32 留言:0更新日期:2018-01-13 20:37
本发明专利技术公开了一种语音交互的唤醒方法,包括:网页页面检测到输入的语音时,识别所述语音中是否包含唤醒关键词;确认所述语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令;执行所述唤醒命令,开启网页页面的语音交互。本发明专利技术还同时公开了一种语音交互的唤醒装置以及计算机可读存储介质。

【技术实现步骤摘要】
一种语音交互的唤醒方法、装置及计算机可读存储介质
本专利技术涉及语音
,尤其涉及一种语音交互的唤醒方法、装置及计算机可读存储介质。
技术介绍
目前,随着计算机技术的快速发展,当今人们的生活已经逐渐步入智能时代,在终端上进行智能语音交互的现象越来越多。语音交互是基于语音输入的新一代交互模式,即用户通过说话就可以得到反馈结果。在实际应用中,语音交互可以通过安装于终端上的应用程序如苹果的语音助手Siri实现。目前,实现语音交互的方式包括:通过客户端实现语音交互的方式。但是,通过客户端实现语音交互,需要进行软件开发,开发周期长、更新复杂。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种语音交互的唤醒方法、装置及计算机可读存储介质,能够基于网页页面开启语音交互。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种语音交互的唤醒方法,所述方法包括:网页页面检测到输入的语音时,识别所述语音中是否包含唤醒关键词;确认所述语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令;执行所述唤醒命令,开启网页页面的语音交互。上述方案中,所述识别所述语音中是否包含唤醒关键词,包括:网页页面获取输入的语音;对获取的语音进行端点检测,得到端点检测后的语音;对所述端点检测后的语音进行识别,得到识别结果;所述识别结果用于指示所述语音中是否包含唤醒关键词。上述方案中,所述网页页面获取输入的语音,包括:获取对所述网页页面所在浏览器的访问权限;获取到对所述浏览器的访问权限时,调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。上述方案中,所述对获取的语音进行端点检测,得到端点检测后的语音,包括:判断所述获取的语音是否存在噪音;确定所述获取的语音不存在噪音时,从所述获取的语音中确定有效的语音段;截取所述语音段起始点和结束点之间的语音,作为端点检测后的语音。上述方案中,所述对所述端点检测后的语音进行识别,得到识别结果,包括:利用所述网页页面所在的浏览器,基于超文本传送协议,将所述端点检测后的语音向服务器发送;所述端点检测后的语音用于供服务器进行语音识别,以确认是否包含唤醒关键词;接收服务器发送的包含或不包含唤醒关键词的识别结果。上述方案中,所述对所述端点检测后的语音进行识别,得到识别结果,包括:对所述端点检测后的语音进行特征提取,得到特征参数;将所述特征参数与预先生成的训练模板中的参数进行匹配,得到匹配结果;利用所述匹配结果,确认所述语音中包含或不包含唤醒关键词;相应的,所述确认所述语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令,包括:确认所述语音中包含唤醒关键词时,根据唤醒关键词与唤醒命令的预设对应关系,确定与所述唤醒关键词对应的唤醒命令。上述方案中,所述开启网页页面的语音交互之后,所述方法还包括:网页页面将再次获取的语音发送给服务器,所述再次获取的语音用于供服务器进行语音识别,以确定对应所述再次获取的语音的预设命令;接收服务器发送的包括所述预设命令的识别结果;执行所述预设命令,以进行网页页面的语音交互。本专利技术实施例提供一种语音交互的唤醒装置,所述装置包括:识别模块,用于在网页页面检测到输入的语音时,识别所述语音中是否包含唤醒关键词;确定模块,用于确认所述语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令;唤醒模块,用于执行所述唤醒命令,开启网页页面的语音交互。上述方案中,所述识别模块,具体用于经由网页页面获取输入的语音;对获取的语音进行端点检测,得到端点检测后的语音;并对所述端点检测后的语音进行识别,得到识别结果;所述识别结果用于指示所述语音中是否包含唤醒关键词。上述方案中,所述识别模块,具体用于获取对所述网页页面所在浏览器的访问权限;获取到对所述浏览器的访问权限时,调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。上述方案中,所述识别模块,具体用于判断所述获取的语音是否存在噪音;确定所述获取的语音不存在噪音时,从所述获取的语音中确定有效的语音段;截取所述语音段起始点和结束点之间的语音,作为端点检测后的语音。上述方案中,所述识别模块,具体用于利用所述网页页面所在的浏览器,基于超文本传送协议,将所述端点检测后的语音向服务器发送;所述端点检测后的语音用于供服务器进行语音识别,以确定是否包含唤醒关键词;接收服务器发送的包含或不包含唤醒关键词的识别结果。上述方案中,所述识别模块,具体用于对所述端点检测后的语音进行特征提取,得到特征参数;将所述特征参数与预先生成的训练模板中的参数进行匹配,得到匹配结果;并利用所述匹配结果,确认所述语音中包含或不包含唤醒关键词;确认所述语音中包含唤醒关键词时,根据唤醒关键词与唤醒命令的预设对应关系,确定与所述唤醒关键词对应的唤醒命令。上述方案中,所述装置还包括:发送模块,用于经由网页页面将再次获取的语音发送给服务器,所述再次获取的语音用于供服务器进行语音识别,以确定对应所述再次获取的语音的预设命令;接收模块,用于接收服务器发送的包括所述预设命令的识别结果;语音交互模块,用于执行所述预设命令,以进行网页页面的语音交互。本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上面所述任一种语音交互的唤醒方法的步骤。本专利技术实施例提供一种语音交互的唤醒装置,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器用于运行所述计算机程序时,执行上面所述任一种语音交互的唤醒方法的步骤。本专利技术实施例提供的语音交互的唤醒方法、装置及计算机可读存储介质,网页页面检测到语音时,识别所述语音中是否包含唤醒关键词;当确定包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令;执行所述唤醒命令,开启网页页面的语音交互。在本专利技术实施例中,网页页面识别检测到的语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令,执行所述唤醒命令,就可以开启网页页面的语音交互,因此,能够基于网页页面开启语音交互。另外,本专利技术实施例中,开启的是网页页面的语音交互,由于无需对客户端软件进行开发,因此,实现较容易、开发周期较短。附图说明图1为本专利技术实施例语音交互的唤醒方法的实现流程示意图一;图2为本专利技术实施例语音交互的唤醒方法的实现流程示意图二;图3为本专利技术实施例语音交互的唤醒装置的组成结构示意图一;图4为本专利技术实施例语音交互的唤醒装置的组成结构示意图二;图5为本专利技术实施例语音交互的唤醒装置的组成结构示意图三;图6为本专利技术实施例在线唤醒的具体实现流程示意图;图7为本专利技术实施例语音交互的唤醒的具体实现流程示意图;图8为本专利技术实施例离线唤醒的具体实现流程示意图。具体实施方式本专利技术实施例中,网页页面检测到输入的语音时,识别所述语音中是否包含唤醒关键词;确认所述语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令;执行所述唤醒命令,开启网页页面的语音交互。为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本专利技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术。如图1所示,详细说明本专利技术实施例语音交互的唤醒方法,本实施例的唤醒方法应用于终端侧,包括以下步骤:步骤101:网页页面检测到输入的语音时,识别所述语音中是本文档来自技高网
...
一种语音交互的唤醒方法、装置及计算机可读存储介质

【技术保护点】
一种语音交互的唤醒方法,其特征在于,所述方法包括:网页页面检测到输入的语音时,识别所述语音中是否包含唤醒关键词;确认所述语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令;执行所述唤醒命令,开启网页页面的语音交互。

【技术特征摘要】
1.一种语音交互的唤醒方法,其特征在于,所述方法包括:网页页面检测到输入的语音时,识别所述语音中是否包含唤醒关键词;确认所述语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令;执行所述唤醒命令,开启网页页面的语音交互。2.根据权利要求1所述的方法,其特征在于,所述识别所述语音中是否包含唤醒关键词,包括:网页页面获取输入的语音;对获取的语音进行端点检测,得到端点检测后的语音;对所述端点检测后的语音进行识别,得到识别结果;所述识别结果用于指示所述语音中是否包含唤醒关键词。3.根据权利要求2所述的方法,其特征在于,所述网页页面获取输入的语音,包括:获取对所述网页页面所在浏览器的访问权限;获取到对所述浏览器的访问权限时,调用所述浏览器的设备访问接口和音频处理接口获取输入的语音。4.根据权利要求2所述的方法,其特征在于,所述对获取的语音进行端点检测,得到端点检测后的语音,包括:判断所述获取的语音是否存在噪音;确定所述获取的语音不存在噪音时,从所述获取的语音中确定有效的语音段;截取所述语音段起始点和结束点之间的语音,作为端点检测后的语音。5.根据权利要求2至4任一项所述的方法,其特征在于,所述对所述端点检测后的语音进行识别,得到识别结果,包括:利用所述网页页面所在的浏览器,基于超文本传送协议,将所述端点检测后的语音向服务器发送;所述端点检测后的语音用于供服务器进行语音识别,以确认是否包含唤醒关键词;接收服务器发送的包含或不包含唤醒关键词的识别结果。6.根据权利要求2至4任一项所述的方法,其特征在于,所述对所述端点检测后的语音进行识别,得到识别结果,包括:对所述端点检测后的语音进行特征提取,得到特征参数;将所述特征参数与预先生成的训练模板中的参数进行匹配,得到匹配结果;利用所述匹配结果,确认所述语音中包含或不包含唤醒关键词;相应的,所述确认所述语音中包含唤醒关键词时,确定对应所述唤醒关键词的唤醒命令,包括:确认所述语音中包含唤醒关键词时,根据唤醒关键词与唤醒命令的预设对应关系,确定与所述唤醒关键词对应的唤醒命令。7.根据权利要求1所述的方法,其特征在于,所述开启网页页面的语音交互之后,所述方法还包括:网页页面将再次获取的语音发送给服务器,所述再次获取的语音用于供服务器进行语音识别,以确定对应所述再次获取的语音的预设命令;接收服务器发送的包括所述预设命令的识别结果;执行所述预设命令,以进行网页页面的语音交互。8.一种语音交互的唤醒装置,其特征在于,所述装置包括:识别模块,用于在网页页面检测到输入的语音...

【专利技术属性】
技术研发人员:李小海唐国宁孙凯赵磊
申请(专利权)人:咪咕文化科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1