一种基于意图识别的语音交互方法、装置及存储介质制造方法及图纸

技术编号:39407236 阅读:7 留言:0更新日期:2023-11-19 15:59
本申请提供了一种基于意图识别的语音交互方法、装置及存储介质,方法包括:获取客户端发送的语音会话对应的第一文字片段;根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,得到目标意图和目标关联度;如果目标关联度未超过预设关联阈值,通过预设的对话大模型对第一文字片段进行处理,得到第一文字片段对应的应答结果;如果目标关联度超过阈值,基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果;将第一文字片段对应的应答结果返回至客户端。以解决现有技术中因语音交互功能单一而导致的回复单一无趣、主题不一致、答非所问等问题,提高用户体验度。户体验度。户体验度。

【技术实现步骤摘要】
一种基于意图识别的语音交互方法、装置及存储介质


[0001]本申请涉及语音交互
,尤其是涉及一种基于意图识别的语音交互方法、装置及存储介质。

技术介绍

[0002]随着现代信息技术和人工智能的发展,人机对话系统逐渐成为人们与计算机进行交互的重要方式,也越来越受到大众的关注。目前,人机对话系统按照功能可以分为任务导向型对话系统、闲聊型对话系统、问答型对话系统。其中,任务导向型对话系统是通过自然语言交互的形式帮助用户完成某个特定的任务;问答型对话系统是基于特定的知识回答用户特定的问题,以帮助用户获取其关注的信息;而闲聊型对话系统是通过模拟人的聊天行为与用户闲聊,提供合理、相关、有趣、个性化的回复。
[0003]但是,现阶段的对话系统大多仅能部分地实现上述3种功能,因而现阶段在同一个对话系统中并不能满足用户在同一空间中出现多种不同功能型对话任务的需求,导致对话系统在处理对话时因用户交互对话场景下所表达意图与对话系统功能不相符致使对话系统不能准确识别用户意图,进而无法给予用户准确反馈,存在答非所问、无法应答用户问题等缺陷,降低用户体验度,无法为用户营造沉浸式交互体验氛围。以智能家电为例,若用户向智能音箱发出“播放下一首”或“声音调高一点”等语音指令时,智能音箱可识别该语音指令的意图并执行以完成本次任务导向型对话任务。但是该智能音箱不支持与用户进行情感陪伴的闲聊任务或者特定领域知识问答的对话任务,这就是由于对话系统功能类型限制导致智能音箱不能识别用户意图,因而无法对此作出符合用户期待的应答,随着上述意图识别不准确、答非所问等劣质交互次数的增多用户就不愿意再进行交流了,降低用户粘性。

技术实现思路

[0004]本申请的目的在于提供一种基于意图识别的语音交互方法、装置及存储介质,以解决现有技术中因语音交互功能单一而导致的回复单一无趣、主题不一致、答非所问等问题,提高用户体验度。
[0005]第一方面,本申请提供一种基于意图识别的语音交互方法,方法包括:获取客户端发送的语音会话对应的第一文字片段;根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度;其中,多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景;目标关联度用于表征目标意图与识别出目标意图的对话场景的关联程度;如果目标关联度未超过预设关联阈值,通过预设的对话大模型对第一文字片段进行处理,得到第一文字片段对应的应答结果;如果目标关联度超过预设关联阈值,基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果;将第一文字片段对应的应答结果返回至客户端。
[0006]进一步地,上述对第一文字片段进行场景意图识别,得到目标意图和对应的目标
关联度的步骤,包括:按照意图识别优先级,将优先级最高的对话应场景作为当前场景,执行以下意图识别步骤:将第一文字片段输入至当前场景进行意图识别,得到当前意图和当前关联度;判断当前关联度是否超过预设关联阈值;如果是,将当前意图和当前关联度,作为目标意图和对应的目标关联度;如果否,将优先级次高的对话场景重新作为当前场景,继续执行意图识别步骤,直至所有对话场景均进行意图识别后,如果当前关联度还未超过预设关联阈值,将当前意图和当前关联度,确定为目标意图和对应的目标关联度。
[0007]进一步地,上述基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理,输出第一文字片段对应的应答结果的步骤,包括:将第一文字片段和目标意图,输入至目标对话场景中,通过目标对话场景中的决策器输出多个执行策略分别对应的置信度;根据多个执行策略分别对应的置信度确定当前执行策略;如果当前执行策略为规则执行策略,输出第一文字片段对应的应答结果;规则执行策略为:通过第一文字片段内含有的必要信息可以立刻返回对应应答动作的策略;如果当前执行策略为剧本执行策略,获取第一文字片段对应缺失的必要信息,基于第一文字片段和缺失的必要信息,输出第一文字片段对应的应答结果;剧本执行策略为:通过多轮交互引导用户提供第一文字片段中缺失的必要信息以确定用户真实意图进而返回对应应答动作的策略。
[0008]进一步地,上述根据多个执行策略分别对应的置信度确定当前执行策略的步骤,包括:如果多个执行策略分别对应的置信度不同,将最大置信度对应的执行策略作为当前执行策略;如果多个执行策略分别对应的置信度相同,根据预设的执行策略优先级,将优先级最高的执行策略作为当前执行策略。
[0009]进一步地,上述获取第一文字片段对应缺失的必要信息的步骤,包括:根据预设剧本和第一文字片段,确定缺失的多个必要信息分别对应的澄清语料;预设剧本中包括:目标对话场景对应的所有必要信息;将多个必要信息分别对应的澄清语料,按照多个必要信息的重要性进行排序,得到由多个询问任务节点顺序连接的询问语音任务流;询问任务节点与澄清语料一一对应;基于询问语音任务流,向客户端发起澄清请求,以获取第一文字片段对应缺失的必要信息。
[0010]进一步地,上述根据预设剧本和第一文字片段,确定缺失的多个必要信息分别对应的澄清语料的步骤,包括:获取第一文字片段中的至少一个必要信息;基于至少一个必要信息,对预设剧本包含的所有必要信息进行去重处理,得到第一文字片段中缺失的必要信息。
[0011]进一步地,上述基于询问语音任务流,向客户端发起澄清请求,以获取第一文字片段对应缺失的必要信息的步骤,包括:将询问语音任务流中的每个询问任务节点的初始状态设置为异常节点,将第一异常节点作为当前节点,执行以下询问澄清步骤:根据当前节点对应的当前澄清语料,生成询问语音信息,向客户端发送当前澄清请求;获取客户端根据当前澄清请求返回的语音信息对应的第二文字片段;对第二文字片段,以及当前澄清语料分别进行意图识别;判断二者意图识别结果是否一致;如果是,将当前节点标记为正常节点,并保留当前澄清语料对应的必要信息,将下一异常节点重新作为当前节点,继续执行询问澄清步骤,直至遍历完所有异常节点;如果否,根据当前节点对应的澄清请求次数或请求响应时间进行后续询问澄清步骤。
[0012]进一步地,上述根据当前节点对应的澄清请求次数或请求响应时间进行后续询问
澄清步骤的步骤,包括:判断当前节点对应的澄清请求的次数是否超过预设次数阈值,或者当前节点的请求响应时间是否超过预设时间阈值;如果否,继续执行当前节点的询问澄清步骤;如果是,向客户端发起确认请求,确认请求中携带有进行下一轮语音会话的第一选项、以及继续下一个异常节点的询问澄清步骤的第二选项;如果接收到对第一选项的确认信息,将第二文字片段作为新的第一文字片段,继续执行根据预设的多个对话场景对应的意图识别优先级,对第一文字片段进行场景意图识别的步骤;如果接收到对第二选项的确认信息,将下一异常节点重新作为当前节点,继续执行询问澄清步骤。
[0013]第二方面,本申请还提供一种基于意图识别的语音交互装置,装置包括用于执行第一方面任一项所述的一种基于意图识别的语音交互方法的步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于意图识别的语音交互方法,其特征在于,所述方法包括:获取客户端发送的语音会话对应的第一文字片段;根据预设的多个对话场景对应的意图识别优先级,对所述第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度;其中,所述多个对话场景至少包括:任务对话场景、闲聊对话场景、问答对话场景;所述目标关联度用于表征所述目标意图与识别出所述目标意图的对话场景的关联程度;如果所述目标关联度未超过预设关联阈值,通过预设的对话大模型对所述第一文字片段进行处理,得到所述第一文字片段对应的应答结果;如果所述目标关联度超过预设关联阈值,基于所述目标关联度对应的目标对话场景对所述第一文字片段和所述目标意图进行处理,输出所述第一文字片段对应的应答结果;将所述第一文字片段对应的应答结果返回至所述客户端。2.根据权利要求1所述的基于意图识别的语音交互方法,其特征在于,对所述第一文字片段进行场景意图识别,得到目标意图和对应的目标关联度的步骤,包括:按照所述意图识别优先级,将优先级最高的对话应场景作为当前场景,执行以下意图识别步骤:将所述第一文字片段输入至所述当前场景进行意图识别,得到当前意图和当前关联度;判断所述当前关联度是否超过所述预设关联阈值;如果是,将所述当前意图和所述当前关联度,作为目标意图和对应的目标关联度;如果否,将优先级次高的对话场景重新作为所述当前场景,继续执行所述意图识别步骤,直至所有对话场景均进行意图识别后,如果当前关联度还未超过所述预设关联阈值,将所述当前意图和所述当前关联度,确定为所述目标意图和对应的目标关联度。3.根据权利要求1所述的基于意图识别的语音交互方法,其特征在于,基于所述目标关联度对应的目标对话场景对所述第一文字片段和所述目标意图进行处理,输出所述第一文字片段对应的应答结果的步骤,包括:将所述第一文字片段和所述目标意图,输入至所述目标对话场景中,通过所述目标对话场景中的决策器输出多个执行策略分别对应的置信度;根据多个执行策略分别对应的置信度确定当前执行策略;如果所述当前执行策略为规则执行策略,输出所述第一文字片段对应的应答结果;所述规则执行策略为:通过所述第一文字片段内含有的必要信息可以立刻返回对应应答动作的策略;如果所述当前执行策略为剧本执行策略,获取所述第一文字片段对应缺失的必要信息,基于所述第一文字片段和所述缺失的必要信息,输出所述第一文字片段对应的应答结果;所述剧本执行策略为:通过多轮交互引导用户提供所述第一文字片段中缺失的必要信息以确定用户真实意图进而返回对应应答动作的策略。4.根据权利要求3所述的基于意图识别的语音交互方法,其特征在于,根据多个执行策略分别对应的置信度确定当前执行策略的步骤,包括:如果多个执行策略分别对应的置信度不同,将最大置信度对应的执行策略作为当前执行策略;
如果多个执行策略分别对应的置信度相同,根据预设的执行策略优先级,将优先级最高的执行策略作为当前执行策略。5.根据权利要求3所述的基于意图识别的语音交互方法,其特征在于,获取所述第一文字片段对应缺失的必要信息的步骤,包括:根据预设剧本和所述第一文字片段,确定缺失的多个必要信息分别对应的澄清语料;所述预设剧本中包括:所述目标对话场景对应的所有必要信息;将多个必要信息分别对应的澄清语料,按照多个所述必要信息的重要性进行排序,得到由多个询问任务节点顺序连接的询问语音任务流;所述询问任务节点与所述澄清语料一一对应;基于所述询问语音任务流,向客户端发起澄清请求,以获取所述第一文字片段对应缺失的必要信息。6....

【专利技术属性】
技术研发人员:王帅谭克强周舒婷李昊文熊文轩
申请(专利权)人:四川蜀天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1