多模态对话状态处理方法、装置、介质及计算设备制造方法及图纸

技术编号：21399046 阅读：28 留言：0更新日期：2019-06-19 07:00

本发明专利技术的实施方式提供了一种用于人机对话的多模态对话状态处理方法、装置、介质及计算设备。该方法包括：根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，获得当前轮次的用户视觉特征和系统视觉特征；获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。本发明专利技术的上述用于人机对话的多模态对话状态处理方法、装置、介质及计算设备，能够准确地理解多模态信息输入，并自适应地整合这些模态以进行对话状态的追踪。

全部详细技术资料下载

【技术实现步骤摘要】
多模态对话状态处理方法、装置、介质及计算设备
本专利技术的实施方式涉及电子信息领域，更具体地，本专利技术的实施方式涉及一种用于人机对话的多模态对话状态处理方法、装置、介质及计算设备。
技术介绍
随着计算机以及互联网技术的发展，多模态对话系统越来越受到人们的重视，以更加自然和信息化的方式进行人机交互。其中，多模态对话系统中的多模态包括文本和视觉信息(如图像)两种模态。作为其核心组成部分之一，对话状态跟踪器在对话的每一步都与用户的目标相匹配，并提供了一种直接的方式来验证对话理解的能力。然而，现有的对话跟踪器技术主要局限于文本模态，这是不容易扩展到捕捉多模态系统中丰富的视觉信息的。
技术实现思路
在本上下文中，本专利技术的实施方式期望提供一种用于人机对话的多模态对话状态处理方法、装置、介质及计算设备，以至少解决现有的对话跟踪技术无法获得多模态系统中视觉信息、进而导致跟踪效果较差的问题。在本专利技术实施方式的第一方面中，提供了一种用于人机对话的多模态对话状态处理方法，所述人机对话包括用户与系统之间的多轮对话，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理方法包括：根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的...

【技术保护点】
1.用于人机对话的多模态对话状态处理方法，所述人机对话包括用户与系统之间的多轮对话，其特征在于，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理方法包括：根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于所述结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。

【技术特征摘要】
1.用于人机对话的多模态对话状态处理方法，所述人机对话包括用户与系统之间的多轮对话，其特征在于，所述人机对话的当前领域具有预设的多个属性类目，其中每个属性类目具有对应的多种预设属性值；所述多模态对话状态处理方法包括：根据当前轮次的用户输入文本内容，获得当前轮次的用户文本特征；针对当前轮次要处理的至少一个属性类目中的每一个：对于该属性类目对应的每一种预设属性值，确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的用户视觉特征，以及确定当前轮次的系统输出图像内容中含有与该种预设属性值对应的内容的可能性分数，以获得当前轮次的系统视觉特征，以及获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征，以基于所述结合特征，获得该属性类目在其对应的多种预设属性值上的概率分布。2.根据权利要求1所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述获得当前轮次的用户文本特征的步骤包括：获得当前轮次的用户输入文本内容的第一词向量，利用文本编码器对所述第一词向量进行编码，以获得对应的语义表示作为当前轮次的用户文本特征。3.根据权利要求1或2所述的用于人机对话的多模态对话状态处理方法，其特征在于，所述确定当前轮次的用户输入图像内容中含有与该种预设属性值对应的内容的可能性分数的步骤包括：获得当前轮次的用户输入图像内容对应的多个第一子区域；针对所述多个第一子区域中的每一个，确定该第一子区域中含有与该种预设属性值对应的内容的第一可能性分数；以及基于所述多个第一子区域各自对应的第一可能性分数，获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数。4.根据权利要求3所述的用于人机对话的多模态对话状态处理方法，其特征在于，在所述获得当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数的过程中，将所述多个第一子区域对应的第一可能性分数中的最大值作为第一下限值，令所述当前轮次的用户输入图像内容含有与该种预设属性值对应的内容的可能性分数大于所述第一下限值、且小于1。5.根据权利要求3或4所述的用于人机对话的多模态对话状态处理方法，其特征在于：在所述多个第一子区域对应的...

【专利技术属性】
技术研发人员：黄民烈，朱小燕，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人