基于多模态对话状态表示的人机交互的方法和装置制造方法及图纸

技术编号：31376762 阅读：74 留言：0更新日期：2021-12-15 11:14

本公开提供一种基于多模态对话状态表示的人机交互的方法和装置，其中，方法包括：获取原始多模态输入信息；对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；根据所述多模态对话状态表示结果确定多模态对话策略；根据所述多模态对话策略完成多模态信息输出。本公开通过定义适应于真实场景对话的对话状态表示方法，能够完整表达交流中的对话交互，能够支持多模态对话系统的实现，进行实现精确的对话表达。现精确的对话表达。现精确的对话表达。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态对话状态表示的人机交互的方法和装置

[0001]本公开涉及计算机
，尤其涉及一种基于多模态对话状态表示的人机交互的方法和装置。

技术介绍

[0002]随着技术的发展和社会需求的进步，人机交互开始迈向拟人化人机交互的新阶段。真实场景下的人机交互系统需要具有一定的沟通技巧与策略规划能力。此外，多模态交互的机器人，不仅能够使用文字或者语音进行交互，还需要在交流过程中适时展示图表或者图片帮助用户更好地理解。真实场景的对话交流中，存在主被动角色转换，话题轮换，上下文的长期依赖等多种语言现象，仅仅依靠于意图、槽值来进行对话状态的表示已经不能满足真实场景下的需求。意图与槽都需要提前定义，难以应对多样性问题。意图与槽值的定义方法并不具有通用性，相关知识领域间共享非常困难。缺少对真实场景下对话交流的行为进行细致描述。缺少对多模态对话状态的考虑。

技术实现思路

[0003]本公开提供一种基于多模态对话状态表示的人机交互的方法和装置，用以解决现有技术中不具有通用性和难以精确进行对话的缺陷，实现精确对话和跨领域通用。
[0004本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态对话状态表示的人机交互的方法，其特征在于，包括：获取原始多模态输入信息；对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；根据所述多模态对话状态表示结果确定多模态对话策略；根据所述多模态对话策略完成多模态信息输出。2.根据权利要求1所述的基于多模态对话状态表示的人机交互的方法，其特征在于，所述对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果，具体包括：对所述原始多模态输入信息进行单模态分析，获取单模态表示结果；根据所述原始多模态输入信息获取对话场景相关信息；对所述单模态表示结果和所述对话场景相关信息进行多模态理解和篇章语义分析，得到多模态对话状态表示结果。3.根据权利要求2所述的基于多模态对话状态表示的人机交互的方法，其特征在于，所述对所述原始多模态输入信息进行单模态分析，获取单模态表示结果，具体包括：对所述原始多模态输入信息进行语音识别，得到语音识别结果，对所述语音识别结果进行语义分析，得到语义分析结果；对所述原始多模态输入信息进行情感分析和行为手势分析，得到相应的情感分析结果和行为手势分析结果；由所述语义分析结果、所述情感分析结果和所述行为手势分析结果组成单模态表示结果。4.根据权利要求1或2所述的基于多模态对话状态表示的人机交互的方法，其特征在于，所述多模态对话状态表示结果包括对话行为、对话要素和对话场景；其中，对话行为用于指导对话策略生成；对话要素用来确定对话者的意图；对话场景用于确定对应的媒体交互类型。5.根据权利要求4所述的基于多模态对话状态表示的人机交互的方法，其特征在于，所述对话行为用于指导对话策略生成，具体包括：获取人机交互情景；根据所述情景进行对话行为维度分析，得到对话行为维度分析结果；根据所述对话行为维度分析结果确定对话策略生成。6.根据权利要求4所述的基于多模态对话状态表示的人机交互的方法，其特征在于，所述对话要素用来确定对话者的意图，具体包括：获取所述对话者的语句；对所述语句进行多因子对话要素表...

【专利技术属性】
技术研发人员：赵楠，张孟馨，吴友政，周伯文，
申请(专利权)人：北京京东尚科信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人