语音交互方法、电子设备和存储介质技术

技术编号：35212924 阅读：21 留言：0更新日期：2022-10-15 10:26

本发明专利技术公开一种语音交互方法、电子设备和存储介质。在该方法中，获取语音数据；基于所述语音数据所对应的语义内容，从预设的对话技能集中确定与所述语义内容相匹配的目标对话技能；所述对话技能集包含用于释放终端设备的音频焦点的第一对话技能和用于抢占终端设备的音频焦点的第二对话技能；基于所述目标对话技能，执行语音交互操作。由此，实现了最匹配于当前语义环境的语音技能交互，无需基于单个技能对终端进行硬件编码，降低了开发成本，也更便于不同厂商对于多样化场景的个性化技能定制。于不同厂商对于多样化场景的个性化技能定制。于不同厂商对于多样化场景的个性化技能定制。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互方法、电子设备和存储介质

[0001]本专利技术属于音频处理
，尤其涉及一种语音交互方法、电子设备和存储介质。

技术介绍

[0002]随着语音技术的不断发展，人们对于语音交互的个性化配置的要求也在不断提升。
[0003]目前，设备的语音交互技能通常采用多轮上下文继承，即直接设定某个领域多轮状态，相同语义槽覆盖，不同语义槽累加，必选语义槽填充完毕后，才会触发下一步动作。
[0004]以一个多轮上下文继承的场景来举例：
[0005]“用户：“导航去北京”；
[0006]系统：为你找到多个北京地址你要去哪一个(多轮状态)；
[0007]用户：第一个；
[0008]系统：为你导航去北京站，确定还是取消？(多轮状态)
[0009]用户:确定；
[0010]系统:为你导航去北京站。”[0011]以上的多轮状态下是需要上下文继承，并且需要在这种强多轮下，终端设备抢占音频焦点，不能播放音乐等背景音，直到导航任务完成。
[0012]然而，当有些交互场景是不需要强多轮状态的上下文继承的，例如在用户使用视听功能的场景时，音频焦点需要释放，需要设备直接播放用户指定的音乐。面对这些类型的交互场景，目前的通常做法是统一使用多轮对话技能，在终端硬编码实现音频焦点释放，虽然也能快速解决问题，但定制难度大，导致开发成本的增大。
[0013]针对上述问题，目前业界暂未提供较佳的解决方案。

技术实现思路

[0014]本专利技术实施例提供一种语音交...

【技术保护点】

【技术特征摘要】
1.一种语音交互方法，包括：获取语音数据；基于所述语音数据所对应的语义内容，从预设的对话技能集中确定与所述语义内容相匹配的目标对话技能；所述对话技能集包含用于释放终端设备的音频焦点的第一对话技能和用于抢占终端设备的音频焦点的第二对话技能；基于所述目标对话技能，执行语音交互操作。2.根据权利要求1所述的方法，其中，所述基于所述语音数据所对应的语义内容，从预设的对话技能集中确定与所述语义相匹配的目标对话技能，包括：识别所述语音数据所对应的文本内容；解析与所述文本内容对应的语义内容，并确定与所述语义内容相匹配的目标语音场景；根据所述目标语音场景，从预设的对话技能集中确定目标对话技能。3.根据权利要求2所述的方法，其中，所述方法还包括：检测是否存在场景技能定制请求；当存在场景技能定制请求时，接收定制场景和相应的针对所述对话技能集的定制技能信息；关联所述定制场景和所述定制技能信息。4.根据权利要求1或2所述的方法，其中，所述第一对话技能包含用于停止监听用户语音的单轮对话技能，以及用于在设定时间段内持续监听用户语音的弱多轮技能。5.根据权利要求4所述的方法，其中，当所述目标对话技能为单轮对话技能时，所述基于所述目标对话技能，执行语音交互操作，包括：基于所述单轮对话技能，确定针对语音数据的响应数据；基于所述响应数据执行语音交互操作，并释放音频焦点，且停止继续监听语音指令。6.根据权利要求4所述的方法，其中，当所...

【专利技术属性】
技术研发人员：朱成亚，樊帅，林永楷，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人