一种浏览器的语音交互方法、装置、终端和存储介质制造方法及图纸

技术编号:17879038 阅读:43 留言:0更新日期:2018-05-06 00:49
本发明专利技术实施例公开了一种浏览器的语音交互方法、装置、终端和存储介质。该方法包括:实时监听用户录入的语音指令;对监听到的语音指令进行意图识别;将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配,并执行匹配成功的控制指令。本发明专利技术实施例无需唤醒,且实时监听用户录入的语音指令,对监听到的语音指令进行意图识别,并对识别出的意图进行匹配,以此匹配到符合用户录入的语音指令意图的控制指令,并执行该控制指令。实现全局通过语音交互进行搜索和浏览的功能,无需用户的启动或手动操作,通过自然语言即可对浏览器实现语音的控制,进而提升用户体验。

A browser's voice interaction method, device, terminal and storage medium

The embodiment of the invention discloses a browser's voice interaction method, device, terminal and storage medium. The method includes: listening to the voice instructions recorded by the user in real time; the intention recognition of the voice instructions heard by the supervisor; the intention of the speech instruction identified with the intention of the control instructions contained in the browser is matched, and the successful control instruction is executed. The embodiment of the invention does not need to wake up, and monitors the voice instructions recorded by the user in real time, recognizes the voice instructions heard and matches the identified intention, and matches the control instructions that conform to the voice instruction intention of the user and executes the control instruction. The function of searching and browsing through the global voice interaction can be realized without user's start or manual operation. It can control the browser by natural language, and then improve the user experience.

【技术实现步骤摘要】
一种浏览器的语音交互方法、装置、终端和存储介质
本专利技术实施例涉及互联网
,尤其涉及一种浏览器的语音交互方法、装置、终端和存储介质。
技术介绍
人工智能虽然作为目前的研究重点,但传统且成熟的搜索和浏览器类的平台型产品,已让用户养成了人工操作来搜索和浏览的习惯,因此难以利用人工智能类的新技术和新设计完全颠覆传统的用户搜索和浏览的方式。现有搜索类和浏览器类产品逐渐集成有新的技术,并且主要是通过插件形式,例如语音和拍照搜索插件,在现有产品框架中另外集成了一部分独立的功能,隶属于产品的一部分。但此类插件入口很深,用户感知度较低,不利于产品的改进以及用户使用习惯的养成。而主推人工智能新技术的全新的智能助手,虽然有全新的产品形态,但未能与传统业务很好的结合,也无法很好地养成用户的使用习惯以及产品的长久使用,多为尝鲜类用户的短暂使用,用户普及度不够。上述两种方式,都不利于用户养成并维持对于新的交互技术的使用习惯。以插件的形式集成在传统平台的产品对新技术的突出力度不够,且产品形态受限;智能助手与现有产品脱节严重。
技术实现思路
本专利技术实施例提供了一种浏览器的语音交互方法、装置、终端和存储介质,通过全局语音交互实现搜索和浏览功能,提升用户体验。第一方面,本专利技术实施例提供了一种浏览器的语音交互方法,包括:实时监听用户录入的语音指令;对监听到的语音指令进行意图识别;将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配,并执行匹配成功的控制指令。第二方面,本专利技术实施例提供了一种浏览器的语音交互装置,包括:监听模块,用于实时监听用户录入的语音指令;识别模块,用于对监听到的语音指令进行意图识别;匹配模块,用于将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配,并执行匹配成功的控制指令。第三方面,本专利技术实施例提供了一种终端,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例任意实施例所述的浏览器的语音交互方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例任意实施例所述的浏览器的语音交互方法。本专利技术实施例无需唤醒,且实时监听用户录入的语音指令,对监听到的语音指令进行意图识别,并将识别出的意图与浏览器中包含的各控制指令的意图进行匹配,以此匹配到符合用户录入的语音指令意图的控制指令,并执行该控制指令。实现全局通过语音交互进行搜索和浏览的功能,无需用户启动语音监听,也无需用户手动操作,通过语音即能够实现对浏览器的控制,进而提升用户体验。附图说明图1为本专利技术实施例一提供的一种浏览器的语音交互方法的流程图;图2为本专利技术实施例一提供的语音指令支持范围的示例图;图3为本专利技术实施例一提供的搜索流程中页面显示的示例图;图4为本专利技术实施例一提供的打开扫二维码功能的页面显示示例图;图5为本专利技术实施例二提供的一种浏览器的语音交互方法的流程图;图6A为本专利技术实施例二提供的首页中语音状态展示区域的示例图;图6B为本专利技术实施例二提供的网页中语音状态展示区域的示例图;图7为本专利技术实施例二提供的首页中状态提示符的示例图;图8为本专利技术实施例二提供的网页中状态提示符的示例图;图9为本专利技术实施例二提供的关闭语音选项后页面显示的示例图;图10A为本专利技术实施例二提供的滑动操作前网页工具栏显示的示例图;图10B为本专利技术实施例二提供的滑动操作后网页工具栏显示的示例图;图11为本专利技术实施例三提供的一种浏览器的语音交互装置的结构示意图;图12为本专利技术实施例四提供的一种终端的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种浏览器的语音交互方法的流程图,本实施例可适用于语音控制浏览器进行搜索和浏览的情况,该方法适用于浏览器和所有浏览类产品,例如手机或平板电脑上的浏览器或嵌入冰箱等家用电器上的浏览器等,该方法可由浏览器的语音交互装置来执行。该方法具体包括如下步骤:S110、实时监听用户录入的语音指令。在本专利技术的具体实施例中,语音指令是指用户在使用浏览器过程中录入的语音,如可以是具有控制网页搜索、浏览功能、页面控制或者浏览器设置功能的语音。本专利技术实施例不限制用户输入的指令语言,不限定用户说指定的词,不限制用户输入的指令语言,语音指令为用户正常说出的自然语言即可。因此可以实现用户通过自然语言与浏览器进行正常的语音交互,用户说出的控制语音不受任何限制,提高用户与浏览器语音交互时的体验。此外,浏览器始终处于语音监听状态,无需外界或人工额外的唤醒操作。因此通过对用户录入的语音指令进行实时地监听,免去了用户用于唤醒的操作,且防止未唤醒时没有监听到语音指令而无法进行语音控制的情况,提高了用户语音指令的监听效率以及用户与浏览器语音交互时的体验。示例性的,若用户在烹饪的过程中,双手不便于操作浏览器来进行菜谱的搜索和浏览,因此此时通过实时地全局监听用户的语音指令,例如当用户说出“搜索菜谱宫保鸡丁”时,则可获得用户的语音指令,便于用户的搜索。S120、对监听到的语音指令进行意图识别。在本专利技术实施例的具体实施例中,意图是指用户与浏览器进行语音交互时的用户目的,例如网页搜索、页面控制、打开网页和选项设置等意图。当正确识别出用户语音指令中的意图后,可以根据用户的意图匹配正确的浏览器控制指令,实现浏览器的有效控制。优选的,依据预先构建的意图识别模型对监听到的语音指令进行意图识别,其中所述意图识别模型是依据预先采集的触发浏览器中各控制指令的语料集,以及所述各控制指令所属的意图进行深度学习模型训练得到的。在本专利技术实施例的具体实施例中,可以通过意图识别模型对监听到的语音指令进行意图识别,因此意图识别的关键在于意图识别模型的构建和训练。在构建和训练模型的前期准备中,首先需要采集可触发浏览器中各控制指令的语料集以及所属的意图。可以理解为,意图与浏览器中的控制指令是一一对应的关系,但是可表述该意图的自然语言是多种多样的,用户可以说出多种语音来表示同一意图,因此在构建和训练意图识别模型时,需要采集可表示某一意图下的多种描述语音,并与对应的意图进行关联后保存在语料集中。然后,根据语料集中的各个语料及其所属意图,构建并训练深度学习模型,即本实施例所需的意图识别模型。最后,将监听到的语音指令通过语音识别技术转化为对应的文本信息,并将文本信息输入到意图识别模型进行意图识别。示例性的,意图“返回”与浏览器中的控制指令“返回”是一一对应的关系,则在构建和训练意图识别模型前需要采集可表示“返回”意图对应的语料信息,例如用户通常会说的“返回”、“后退”或“回上一页”等语料都可表示意图“返回”,因此将上述语料与意图“返回”进行关联,并保存在语料集中。根据语料集中的“返回”、“后退”或“回上一页”等语料及其所属意图“返回”,构建并训练意图识别模型。因此当用户说出任意一个表示意图“返回”的语音指令时,意图识别模型都可识别出其对应的意图即为“返回本文档来自技高网...
一种浏览器的语音交互方法、装置、终端和存储介质

【技术保护点】
一种浏览器的语音交互方法,其特征在于,包括:实时监听用户录入的语音指令;对监听到的语音指令进行意图识别;将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配,并执行匹配成功的控制指令。

【技术特征摘要】
1.一种浏览器的语音交互方法,其特征在于,包括:实时监听用户录入的语音指令;对监听到的语音指令进行意图识别;将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配,并执行匹配成功的控制指令。2.根据权利要求1所述的方法,其特征在于,所述实时监听用户录入的语音指令,包括:若当前页面是网页,且用户录入任一语音指令的时间长度大于时间长度阈值,则结束该语音指令的获取。3.根据权利要求1所述的方法,其特征在于,在所述实时监听用户录入的语音指令之后,包括:若监听到的语音指令的起始语音是搜索启动语音,则依据所述起始语音之后的所述语音指令确定搜索词进行搜索。4.根据权利要求1所述的方法,其特征在于,所述对监听到的语音指令进行意图识别,包括:依据预先构建的意图识别模型对监听到的语音指令进行意图识别,其中所述意图识别模型是依据预先采集的触发浏览器中各控制指令的语料集,以及所述各控制指令所属的意图进行深度学习模型训练得到的。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:依据当前工作状态,在所述当前页面的语音状态展示区域中展示语音处理状态提醒。6.根据权利要求5所述的方法,其特征在于,所述依据当前工作状态,在所述当前页面的语音状态展示区域中展示语音处理状态提醒,包括:若处于语音采集等待状态,则在所述当前页面的语音状态展示区域中展示监听中可录入状态提示符,以提示用户直接进行语音输入;若处于用户语音采集过程中,则在所述语音状态展示区域中展示语音采集和识别中提示符,并显示实时的语音识别结果;若处于意图识别过程中,则在所述语音状态展示区域中展示意图识别中提示符。7.根据权利要求5所述的方法,其特征在于,所述方法还包括:若所述当前页面是首页,则将中心区域确定为语音状态展示区域;若所述当前页面是网页,则将底部工具栏确定为语音状态展示区域。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:若在网页中检测到滑动操作,则缩小集成有地址栏和搜索框的工具栏所占的页面面...

【专利技术属性】
技术研发人员:李天赐丁艳红王欣彤丁熙荣李赋博
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1