【技术实现步骤摘要】
一种融合视觉情境的富语义对话生成方法
[0001]本专利技术属于深度学习
,具体涉及一种融合视觉情境的富语义对话生成方法。
技术介绍
[0002]在人工智能飞速发展的今天,要实现机器与人类的自然交互仍是一项极具挑战性的任务,其中一个重要原因是现有的对话系统大多是基于单模态的文本来进行的,虽然文本是人类之间表达信息和相互交流的重要手段,但现实世界是自然多模态的,除了文本之外,人们会持续接收视频、音频、图像等多模态的信息,并针对这些特定的场景信息给出更加个性化和多样化的处理和交互方式。因此,视听说是智能系统实现自然交互的必备能力,基于多模态数据(文本、图像、视频等)的对话系统将是实现真正拟人化对话系统的重要途经。通过理解视觉情境信息,对话系统可以生成信息丰富且高质量的回复,以更加自然的方式与人类进行对话交互。未来多模态对话系统将是众多复杂的人工智能系统与应用中不可或缺的组成部分,例如盲人导航系统可以通过对话的方式帮助视力受损用户了解他们的周围情况或社交媒体内容,提高生活质量。
[0003]相比于基于文本或者语音的对话系统,视觉情境融合的人机对话系统目标是根据给定的输入视觉情境信息(视频内容)以及自然语言文本形式的对话内容(历史对话,视频摘要,当前问题)进行理解和推理,最后生成与问题相对应的自然语言形式的回复,整个过程不仅需要对复杂的视觉场景信息进行处理,还需要考虑历史上下文中的语言信息,并对两个模态的信息进行充分融合,才能生成符合当前视觉场景并且正确流畅的对话内容。挑战在于如何将这些侧重点不同的关键技术合为 ...
【技术保护点】
【技术特征摘要】
1.一种融合视觉情境的富语义对话生成方法,其特征在于,包括以下步骤:步骤1:收集视频对话相关开源数据集,并对数据进行预处理,划分训练集、验证集与测试集;步骤2:数据预处理;视频内容中存在四种类型的多模态特征表示,即视频静态特征、视频动态特征、当前问题特征和历史对话与总结信息拼接的文本特征;进行特征提取时加入位置编码,得到最终模型的输入表示,如下:模型的输入表示,如下:其中PE(pos,2i)代表句子序列中第pos个单词的第2i个维度上的值,PE(pos,2i+1)代表句子序列中第pos个单词的第2i+1个维度上的值;步骤3:模型构建;(1)首先构建基于编解码架构的对话系统,通过对视频中的帧信息使用预训练模型进行特征提取,获取到静态和动态的视频语义信息,然后将其与对话文本内容分别进行编码,并建模细粒度的模态内上下文语义信息;(2)使用基于交叉模态的多步注意力机制进行多模态数据的融合和跨模态交互,捕捉多角度细粒度渐进式特征交互和模态间语义关联,实现视觉
‑
语言跨模态语义对齐;(3)将多模态特征表示联合构建成时空图结构,基于动态时空场景进行图推理得到跨模态融合特征后,解码生成对话回复;步骤4:编码阶段;对于编码部分,使用4个标准Transformer编码器,对不同模态输入特征进行语义编码,包括视频静态特征、视频动态特征、历史对话与视频摘要特征和当前问题特征;其中,同属文本模态的历史对话与视频摘要特征和当前问题特征所使用的编码器将共享权重;首先通过多头注意力模块根据上下文对句子序列中的单词向量进行更新,如下:MultiHead(Q,K,V)=Concat(head1,head2,...head
h
)W
O
head
i
=Attention(QW
iQ
,KW
iK
,VW
iV
)其中Q,K,V分别由三个不同的权重矩阵W
iQ
、W
iK
、W
iV
与模型输入向量相乘得到,三个权重矩阵维度均为d
k
,head
i
代表多头注意力机制中的一个注意力头;然后经过前馈神经网络层得到编码阶段的输出,如下:FFN(Z)=max(0,Z,W1+b1)W2+b2其中Z代表多头注意力层的输出内容,W1、W2分别表示前馈神经网络的学习权重;b1、b2分别表示偏置;编码阶段中的多头注意力层和前馈神经网络层后都附加有残差连接和层归一化过程,如下:
SubLayer
output
=LayerNorm(x+(SubLayer(x))其中SubLayer指多头注意力层或前馈神经网络层,x表示输入;步骤5:多步交叉模态注意机制;将注意力机制从单步扩展到多步,在不同的注意力计算中,查询向量依次来源于其中一个模态类型数据,其余三个模态类型数据分别用于计算键向量和值向量,实现其中一个特征维度与其余三个维度之间的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。