语音交互方法、电子设备和存储介质技术

技术编号:35212924 阅读:21 留言:0更新日期:2022-10-15 10:26
本发明专利技术公开一种语音交互方法、电子设备和存储介质。在该方法中,获取语音数据;基于所述语音数据所对应的语义内容,从预设的对话技能集中确定与所述语义内容相匹配的目标对话技能;所述对话技能集包含用于释放终端设备的音频焦点的第一对话技能和用于抢占终端设备的音频焦点的第二对话技能;基于所述目标对话技能,执行语音交互操作。由此,实现了最匹配于当前语义环境的语音技能交互,无需基于单个技能对终端进行硬件编码,降低了开发成本,也更便于不同厂商对于多样化场景的个性化技能定制。于不同厂商对于多样化场景的个性化技能定制。于不同厂商对于多样化场景的个性化技能定制。

【技术实现步骤摘要】
语音交互方法、电子设备和存储介质


[0001]本专利技术属于音频处理
,尤其涉及一种语音交互方法、电子设备和存储介质。

技术介绍

[0002]随着语音技术的不断发展,人们对于语音交互的个性化配置的要求也在不断提升。
[0003]目前,设备的语音交互技能通常采用多轮上下文继承,即直接设定某个领域多轮状态,相同语义槽覆盖,不同语义槽累加,必选语义槽填充完毕后,才会触发下一步动作。
[0004]以一个多轮上下文继承的场景来举例:
[0005]“用户:“导航去北京”;
[0006]系统:为你找到多个北京地址你要去哪一个(多轮状态);
[0007]用户:第一个;
[0008]系统:为你导航去北京站,确定还是取消?(多轮状态)
[0009]用户:确定;
[0010]系统:为你导航去北京站。”[0011]以上的多轮状态下是需要上下文继承,并且需要在这种强多轮下,终端设备抢占音频焦点,不能播放音乐等背景音,直到导航任务完成。
[0012]然而,当有些交互场景是不需要强多轮状态的上下文继承的,例如在用户使用视听功能的场景时,音频焦点需要释放,需要设备直接播放用户指定的音乐。面对这些类型的交互场景,目前的通常做法是统一使用多轮对话技能,在终端硬编码实现音频焦点释放,虽然也能快速解决问题,但定制难度大,导致开发成本的增大。
[0013]针对上述问题,目前业界暂未提供较佳的解决方案。

技术实现思路

[0014]本专利技术实施例提供一种语音交互方法、电子设备和存储介质,用于至少解决上述技术问题之一。
[0015]第一方面,本专利技术实施例提供一种语音交互方法,包括:获取语音数据;基于所述语音数据所对应的语义内容,从预设的对话技能集中确定与所述语义内容相匹配的目标对话技能;所述对话技能集包含用于释放设备的音频焦点的第一对话技能和用于抢占设备的音频焦点的第二对话技能;基于所述目标对话技能,执行语音交互操作。
[0016]第二方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
[0017]第三方面,本专利技术实施例提供一种存储介质,所述存储介质中存储有一个或多个
包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本专利技术上述方法的步骤。
[0018]第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述方法的步骤。
[0019]本专利技术实施例的有益效果在于:
[0020]通过本专利技术实施例,当用户在终端设备上进行人机语音交互时,可以通过对用户语音语义进行解析,从多个技能中调用与语义最匹配的对话技能来进行语音交互操作。由此,实现了最匹配于当前语义环境的语音技能交互,无需基于单个技能对终端进行硬件编码,降低了开发成本,也更便于不同厂商对于多样化场景的个性化技能定制。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1示出了根据本专利技术实施例的语音交互方法的一示例的流程图;
[0023]图2示出了图1中的步骤120的具体操作过程的一示例的流程图;
[0024]图3示出了根据本专利技术实施例的语音交互方法的一示例的流程图;
[0025]图4示出了根据本专利技术实施例的语音交互方法的一示例的流程图;
[0026]图5为本专利技术的电子设备的一实施例的结构示意图。
具体实施方式
[0027]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0029]本专利技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本专利技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0030]在本专利技术中,“模块”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种
计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
[0031]最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0032]图1示出了根据本专利技术实施例的语音交互方法的一示例的流程图。关于本专利技术实施例方法的执行主体,其可以是专用于提供语音服务支持的云服务器,也可以是被集成在终端设备,从而实现各种设备语音功能。
[0033]如图1所示,在步骤110中,获取语音数据。具体地,可以是终端设备通过音频采集模块来采集语音数据,还可以是有服务端从终端设备接收语音数据,且都属于本专利技术实施例的实施范围内。
[0034]在步骤120中,基于语音数据所对应的语义内容,从预设的对话技能集中确定与语义内容相匹配的目标对话技能。这里,对话技能集包含用于释放终端设备的音频焦点的第一对话技能和用于抢占终端设备的音频焦点的第二对话技能。
[0035]在步骤130中,基于目标对话技能,执行语音交互操作。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互方法,包括:获取语音数据;基于所述语音数据所对应的语义内容,从预设的对话技能集中确定与所述语义内容相匹配的目标对话技能;所述对话技能集包含用于释放终端设备的音频焦点的第一对话技能和用于抢占终端设备的音频焦点的第二对话技能;基于所述目标对话技能,执行语音交互操作。2.根据权利要求1所述的方法,其中,所述基于所述语音数据所对应的语义内容,从预设的对话技能集中确定与所述语义相匹配的目标对话技能,包括:识别所述语音数据所对应的文本内容;解析与所述文本内容对应的语义内容,并确定与所述语义内容相匹配的目标语音场景;根据所述目标语音场景,从预设的对话技能集中确定目标对话技能。3.根据权利要求2所述的方法,其中,所述方法还包括:检测是否存在场景技能定制请求;当存在场景技能定制请求时,接收定制场景和相应的针对所述对话技能集的定制技能信息;关联所述定制场景和所述定制技能信息。4.根据权利要求1或2所述的方法,其中,所述第一对话技能包含用于停止监听用户语音的单轮对话技能,以及用于在设定时间段内持续监听用户语音的弱多轮技能。5.根据权利要求4所述的方法,其中,当所述目标对话技能为单轮对话技能时,所述基于所述目标对话技能,执行语音交互操作,包括:基于所述单轮对话技能,确定针对语音数据的响应数据;基于所述响应数据执行语音交互操作,并释放音频焦点,且停止继续监听语音指令。6.根据权利要求4所述的方法,其中,当所...

【专利技术属性】
技术研发人员:朱成亚樊帅林永楷
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1