一种基于意图识别的语音交互方法、装置及存储介质制造方法及图纸

技术编号：39407236 阅读：7 留言：0更新日期：2023-11-19 15:59

本申请提供了一种基于意图识别的语音交互方法、装置及存储介质，方法包括：获取客户端发送的语音会话对应的第一文字片段；根据预设的多个对话场景对应的意图识别优先级，对第一文字片段进行场景意图识别，得到目标意图和目标关联度；如果目标关联度未超过预设关联阈值，通过预设的对话大模型对第一文字片段进行处理，得到第一文字片段对应的应答结果；如果目标关联度超过阈值，基于目标关联度对应的目标对话场景对第一文字片段和目标意图进行处理，输出第一文字片段对应的应答结果；将第一文字片段对应的应答结果返回至客户端。以解决现有技术中因语音交互功能单一而导致的回复单一无趣、主题不一致、答非所问等问题，提高用户体验度。户体验度。户体验度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于意图识别的语音交互方法、装置及存储介质

[0001]本申请涉及语音交互
，尤其是涉及一种基于意图识别的语音交互方法、装置及存储介质。

技术介绍

[0002]随着现代信息技术和人工智能的发展，人机对话系统逐渐成为人们与计算机进行交互的重要方式，也越来越受到大众的关注。目前，人机对话系统按照功能可以分为任务导向型对话系统、闲聊型对话系统、问答型对话系统。其中，任务导向型对话系统是通过自然语言交互的形式帮助用户完成某个特定的任务；问答型对话系统是基于特定的知识回答用户特定的问题，以帮助用户获取其关注的信息；而闲聊型对话系统是通过模拟人的聊天行为与用户闲聊，提供合理、相关、有趣、个性化的回复。
[0003]但是，现阶段的对话系统大多仅能部分地实现上述3种功能，因而现阶段在同一个对话系统中并不能满足用户在同一空间中出现多种不同功能型对话任务的需求，导致对话系统在处理对话时因用户交互对话场景下所表达意图与对话系统功能不相符致使对话系统不能准确识别用户意图，进而无法给予用户准确反馈，存在答非所问、无法应答用户问题等缺陷，降低用户体验度，无法为用户营造沉浸式交互体验氛围。以智能家电为例，若用户向智能音箱发出“播放下一首”或“声音调高一点”等语音指令时，智能音箱可识别该语音指令的意图并执行以完成本次任务导向型对话任务。但是该智能音箱不支持与用户进行情感陪伴的闲聊任务或者特定领域知识问答的对话任务，这就是由于对话系统功能类型限制导致智能音箱不能识别用户意图，因而无法对此作出符合用户期待的应答，随着上述意图识别不准确...

【技术保护点】

【技术特征摘要】
1.一种基于意图识别的语音交互方法，其特征在于，所述方法包括：获取客户端发送的语音会话对应的第一文字片段；根据预设的多个对话场景对应的意图识别优先级，对所述第一文字片段进行场景意图识别，得到目标意图和对应的目标关联度；其中，所述多个对话场景至少包括：任务对话场景、闲聊对话场景、问答对话场景；所述目标关联度用于表征所述目标意图与识别出所述目标意图的对话场景的关联程度；如果所述目标关联度未超过预设关联阈值，通过预设的对话大模型对所述第一文字片段进行处理，得到所述第一文字片段对应的应答结果；如果所述目标关联度超过预设关联阈值，基于所述目标关联度对应的目标对话场景对所述第一文字片段和所述目标意图进行处理，输出所述第一文字片段对应的应答结果；将所述第一文字片段对应的应答结果返回至所述客户端。2.根据权利要求1所述的基于意图识别的语音交互方法，其特征在于，对所述第一文字片段进行场景意图识别，得到目标意图和对应的目标关联度的步骤，包括：按照所述意图识别优先级，将优先级最高的对话应场景作为当前场景，执行以下意图识别步骤：将所述第一文字片段输入至所述当前场景进行意图识别，得到当前意图和当前关联度；判断所述当前关联度是否超过所述预设关联阈值；如果是，将所述当前意图和所述当前关联度，作为目标意图和对应的目标关联度；如果否，将优先级次高的对话场景重新作为所述当前场景，继续执行所述意图识别步骤，直至所有对话场景均进行意图识别后，如果当前关联度还未超过所述预设关联阈值，将所述当前意图和所述当前关联度，确定为所述目标意图和对应的目标关联度。3.根据权利要求1所述的基于意图识别的语音交互方法，其特征在于，基于所述目标关联度对应的目标对话场景对所述第一文字片段和所述目标意图进行处理，输出所述第一文字片段对应的应答结果的步骤，包括：将所述第一文字片段和所述目标意图，输入至所述目标对话场景中，通过所述目标对话场景中的决策器输出多个执行策略分别对应的置信度；根据多个执行策略分别对应的置信度确定当前执行策略；如果所述当前执行策略为规则执行策略，输出所述第一文字片段对应的应答结果；所述规则执行策略为：通过所述第一文字片段内含有的必要信息可以立刻返回对应应答动作的策略；如果所述当前执行策略为剧本执行策略，获取所述第一文字片段对应缺失的必要信息，基于所述第一文字片段和所述缺失的必要信息，输出所述第一文字片段对应的应答结果；所述剧本执行策略为：通过多轮交互引导用户提供所述第一文字片段中缺失的必要信息以确定用户真实意图进而返回对应应答动作的策略。4.根据权利要求3所述的基于意图识别的语音交互方法，其特征在于，根据多个执行策略分别对应的置信度确定当前执行策略的步骤，包括：如果多个执行策略分别对应的置信度不同，将最大置信度对应的执行策略作为当前执行策略；
如果多个执行策略分别对应的置信度相同，根据预设的执行策略优先级，将优先级最高的执行策略作为当前执行策略。5.根据权利要求3所述的基于意图识别的语音交互方法，其特征在于，获取所述第一文字片段对应缺失的必要信息的步骤，包括：根据预设剧本和所述第一文字片段，确定缺失的多个必要信息分别对应的澄清语料；所述预设剧本中包括：所述目标对话场景对应的所有必要信息；将多个必要信息分别对应的澄清语料，按照多个所述必要信息的重要性进行排序，得到由多个询问任务节点顺序连接的询问语音任务流；所述询问任务节点与所述澄清语料一一对应；基于所述询问语音任务流，向客户端发起澄清请求，以获取所述第一文字片段对应缺失的必要信息。6....

【专利技术属性】
技术研发人员：王帅，谭克强，周舒婷，李昊文，熊文轩，
申请(专利权)人：四川蜀天信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人