多模态意图识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36407050 阅读:19 留言:0更新日期:2023-01-18 10:15
本申请提供一种多模态意图识别方法、装置、电子设备和存储介质。涉及人工智能技术领域,所述方法包括:获取待识别数据,所述待识别数据包括至少两种模态的数据,每一模态数据具有不同的数据类型;对所述待识别数据进行编码,得到每一模态数据的表示序列;将所述每一模态数据的表示序列作为节点特征,构建多模态异构图;通过基于注意力机制的全局视图对所述多模态异构图进行编码,得到所述多模态异构图的表示;根据所述多模态异构图的表示进行分类,得到意图识别结果。上述方法可有效地对多模态信息进行融合,采用多模态异构图提升用户交互意图识别准确率,实现自然灵活的人机交互。互。互。

【技术实现步骤摘要】
多模态意图识别方法、装置、电子设备和存储介质


[0001]本申请涉及人工智能
,尤其涉及一种多模态意图识别方法、装置、电子设备和存储介质。

技术介绍

[0002]意图识别用于分析用户的核心需求,输出与查询输入最相关的信息,现有技术中通常的任务型对话意图识别任务通常只解决单一的意图识别,通常是获取样本文本中的词向量以及上下文词向量进行训练,得到意图识别模型,意图识别模型通过确定用户输入对应的意图,进而生成并执行一系列行为和策略,实现与用户的交互。但现实生活中我们往往需要利用多种模态信息(如自然语言、视频和音频信号等)去综合判断真实意图,除了最为普遍的文字以外,图片、视频、音频等多模态的数据也能够应用于辅助理解用户意图,以此提高信息服务的准确度。
[0003]例如在电力系统领域,电力故障报修中常常会面临文字难以描述的场景,因为在客服的会话中,用户不仅会发来纯文本信息,还可能包含图像和语音信息等。例如,充电桩报修/安装,常常无法通过文本直接进行描述,通常通过拍照的方式进行报修或询问,可能需要综合考虑到文本和图像信息才能准确地判断出用户意图。
[0004]然而,目前多数意图基准数据集仍只包含文本模态信息,人机交互数据单一,少数对多模态意图识别的方式也是通过融合多模态预训练模型和注意力机制进行训练,得到多模态意图识别模型,识别准确率不高,模态融合方式简单,极大限制了多模态意图理解领域的发展,针对电力故障报修领域的多意图识别更是鲜有研究。
[0005]因此,提高多模态意图识别的识别准确率是亟需解决的问题。

技术实现思路

[0006]有鉴于此,本申请的目的在于提出一种用于电力故障报修领域多模态意图识别方法、装置、电子设备和存储介质,本申请能够针对性的解决现有的问题。
[0007]第一方面,基于上述目的,本申请提出了一种多模态意图识别方法,包括:获取待识别数据,所述待识别数据包括至少两种模态的数据,每一模态数据具有不同的数据类型;对所述待识别数据进行编码,得到每一模态数据的表示序列;将所述每一模态数据的表示序列作为节点特征,构建多模态异构图;通过基于注意力机制的全局视图对所述多模态异构图进行编码,得到所述多模态异构图的表示;根据所述多模态异构图的表示进行分类,得到意图识别结果。
[0008]可选地,待识别数据包括文本数据、图片数据和音频数据,所述对所述待识别数据进行编码,得到每一模态数据的表示序列,包括:对所述文本数据进行分词处理,得到多个词,对所述词进行编码,得到第一编码信息;对所述图片数据进行图像特征提取,得到多个图像区域,对所述图像区域进行编码,得到第二编码信息;对所述音频数据进行音频特征提取,得到多个音频片段,对所述音频片段进行编码,得到第三编码信息;将所述第一编码信
息、第二编码信息和第三编码信息作为三模态预训练模型的输入,得到分别对应于所述文本数据、图片数据和音频数据的文本序列、图片序列和音频序列。
[0009]可选地,对于所述文本数据,通过最小化负对数似然函数对所述三模态预训练模型进行训练,得到所述文本序列;对于所述图片数据,通过设置第一函数和第二函数对所述三模态预训练模型进行训练,得到所述图片序列;对于所述音频数据,通过设置第三函数和第四函数对所述三模态预训练模型进行训练,得到所述音频序列。
[0010]可选地,将所述每一模态数据的表示序列作为节点特征,构建多模态异构图,包括:根据不同模态数据得到不同的节点类型,根据每一模态数据的表示序列中的元素的数量,确定每一节点类型的节点数;其中,根据所述文本数据中的词的数量得到文本节点的节点数,根据所述图片数据的图像区域的数量得到图片节点的节点数,根据所述音频数据的音频片段的数量得到音频节点的节点数。
[0011]可选地,通过基于注意力机制的全局视图对所述多模态异构图进行编码,得到所述多模态异构图的表示,包括:根据所述多模态异构图中每一节点之间的关系计算注意力权重;计算每一节点在不同模态数据下的隐向量;根据所述节点的注意力权重和所述节点在不同模态数据下的隐向量,得到节点的表示;根据每一节点的表示得到所述多模态异构图的表示。
[0012]可选地,所述根据所述多模态异构图中每一节点之间的关系计算注意力权重,包括:通过非线性激活函数对节点向量进行激活,对激活后的节点向量进行归一化处理,得到注意力权重;其中,每一节点之间的关系包括并列关系和递进关系,所述并列关系表征两节点属于同一类型的模态数据,所述递进关系保证两节点属于不同类型的模态数据。
[0013]可选地,所述根据所述多模态异构图的表示进行分类,得到意图识别结果,包括:基于所述多模态异构图的表示,得到意图标签预测概率;根据损失函数计算所述意图标签预测概率的损失值,在所述损失值保持在预设范围的情况下,得到意图识别结果。
[0014]第二方面,基于上述目的,本申请还提出了一种多模态意图识别装置,包括:数据获取模块,用于获取待识别数据,所述待识别数据包括至少两种模态的数据,每一模态数据具有不同的数据类型;预训练模块,用于对所述待识别数据进行编码,得到每一模态数据的表示序列;异构图创建模块,用于将所述每一模态数据的表示序列作为节点特征,构建多模态异构图;异构图表示模块,用于通过基于注意力机制的全局视图对所述多模态异构图进行编码,得到所述多模态异构图的表示;分类模块,用于根据所述多模态异构图的表示进行分类,得到意图识别结果。
[0015]第三方面,本实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如第一方面任一项所述的方法。
[0016]第四方面,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如第一方面中任一项所述的方法。
[0017]总的来说,本申请的优势及给用户带来的体验在于:本实施例提供一种多模态意图识别方法,通过获取具有不同模态的待识别数据,对待识别数据进行编码,得到每一模态数据的表示序列;将每一模态数据的表示序列作为节点特征,构建多模态异构图,为解决多模态对话意图理解提出了新思路;通过基于注意力
机制的全局视图对所述多模态异构图进行编码,得到多模态异构图的表示;根据多模态异构图的表示进行分类,得到意图识别结果。可以有效地对多模态信息进行融合,采用多模态异构图提升用户交互意图识别准确率,实现自然灵活的人机交互。
附图说明
[0018]在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
[0019]图1示出本申请的多模态意图识别方法的流程图;图2示出根据本申请一个例子中三模态预训练模型的结构示意图;图3示出根据本申请一个例子中多模态异构图的示意图;图4示出根据本申请实施例的得到多模态异构图的表示的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态意图识别方法,其特征在于,所述方法包括:获取待识别数据,所述待识别数据包括至少两种模态的数据,每一模态数据具有不同的数据类型;对所述待识别数据进行编码,得到每一模态数据的表示序列;将所述每一模态数据的表示序列作为节点特征,构建多模态异构图;通过基于注意力机制的全局视图对所述多模态异构图进行编码,得到所述多模态异构图的表示;根据所述多模态异构图的表示进行分类,得到意图识别结果。2.根据权利要求1所述的多模态意图识别方法,其特征在于,所述待识别数据包括文本数据、图片数据和音频数据,所述对所述待识别数据进行编码,得到每一模态数据的表示序列,包括:对所述文本数据进行分词处理,得到多个词,对所述词进行编码,得到第一编码信息;对所述图片数据进行图像特征提取,得到多个图像区域,对所述图像区域进行编码,得到第二编码信息;对所述音频数据进行音频特征提取,得到多个音频片段,对所述音频片段进行编码,得到第三编码信息;将所述第一编码信息、第二编码信息和第三编码信息作为三模态预训练模型的输入,得到分别对应于所述文本数据、图片数据和音频数据的文本序列、图片序列和音频序列。3.根据权利要求2所述的多模态意图识别方法,其特征在于,所述方法还包括:对于所述文本数据,通过最小化负对数似然函数对所述三模态预训练模型进行训练,得到所述文本序列;对于所述图片数据,通过设置第一函数和第二函数对所述三模态预训练模型进行训练,得到所述图片序列;对于所述音频数据,通过设置第三函数和第四函数对所述三模态预训练模型进行训练,得到所述音频序列。4.根据权利要求2所述的多模态意图识别方法,其特征在于,将所述每一模态数据的表示序列作为节点特征,构建多模态异构图,包括:根据不同模态数据得到不同的节点类型,根据每一模态数据的表示序列中的元素的数量,确定每一节点类型的节点数;其中,根据所述文本数据中的词的数量得到文本节点的节点数,根据所述图片数据的图像区域的数量得到图片节点的节点数,根据所述音频数据的音频片段的数量得到音频节点的节点数。5.根据权利要求1所述的多模态意图识别方法,其特征在于,通过基于...

【专利技术属性】
技术研发人员:张烁刘芳陈曦杨睿安业腾张惠民张妍赵伟王晨飞徐李阳
申请(专利权)人:国家电网有限公司客户服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1