基于级联时空注意力网络的高效细粒度视频对话生成方法技术

技术编号：42114606 阅读：20 留言：0更新日期：2024-07-25 00:35

本申请的实施例涉及视频对话生成技术领域，特别涉及一种基于级联时空注意力网络的高效细粒度视频对话生成方法，包括：将待处理视频输入至视觉Transformer模型中，获得视觉语义特征；将与待处理视频对应的对话上下文输入至BERT模型中，获得对话上下文语义特征；利用级联时空注意力网络，基于对话上下文语义特征和视觉语义特征，得到与对话上下文相关的视频片段集合和空间区域集合，并基于这两个集合得到视频时空特征；利用迭代式跨模态交叉注意力网络，基于对话上下文和视频时空特征，得到跨模态交互语义特征；基于跨模态交互语义特征生成对话回复，从而准确捕捉视频与对话上下文之间的语义关联，生成高质量的对话回复。

全部详细技术资料下载

【技术实现步骤摘要】

本申请的实施例涉及视频对话生成，特别涉及一种基于级联时空注意力网络的高效细粒度视频对话生成方法。

技术介绍

1、多模态语义理解和生成是人工智能领域重要的研究方向，目前已经发展出了诸多的前沿应用，例如视觉问答系统、视频摘要系统等，而视频对话系统的研究近年来受到了广泛的关注。基于给定的视频内容和多轮对话上下文，视频对话系统需要根据当前的对话输入，综合考虑视频内容与多轮对话上下文，生成符合视觉和文本语义信息的对话回复。

2、视频对话系统的研究面临诸多挑战：首先是对话问题通常与视频不同粒度的多个概念相关联，例如物体的空间关系，事件的时空关系等，这种复杂关联需要进行联合推理才能精准捕捉；其次是视频和文本模态之间存在巨大的语义鸿沟，全面的跨模态语义对齐对根据对话上下文精准理解视频语义信息是至关重要的。

3、现已有研究者对视频对话生成技术进行了探索，最初的研究是利用预训练的3d卷积神经网络，或者是简单的循环神经网络，再或者是transformer模型来提取跨模态的特征，这些无法准确捕捉视频中的复杂时空信息。后续有研究者提出了基...

【技术保护点】

1.一种基于级联时空注意力网络的高效细粒度视频对话生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于级联时空注意力网络的高效细粒度视频对话生成方法，其特征在于，所述利用预训练的级联时空注意力网络，基于所述对话上下文语义特征和所述视觉语义特征进行相关匹配，在时间维度上定位与所述对话上下文最相关的视频片段集合，在空间维度上定位与所述对话上下文最相关的空间区域集合，并基于所述视频片段集合和所述空间区域集合得到视频时空特征，包括：

3.根据权利要求2所述的基于级联时空注意力网络的高效细粒度视频对话生成方法，其特征在于，所述视频时间特征通

【技术特征摘要】

1.一种基于级联时空注意力网络的高效细粒度视频对话生成方法，其特征在于，所述方法包括：

3.根据权利要求2所述的基于级联时空注意力网络的高效细粒度视频对话生成方法，其特征在于，所述视频时间特征通过以下公式表示：

4.根据权利要求3所述的基于级联时空注意力网络的高效细粒度视频对话生成方法，其特征在于，所述视频空间特征通过以下公式表示：

5.根据权利要求1所述的基于级联时空注意力网络的高效细粒度视频对话生成方法，其特征在于，所述利用预训练的迭代式跨模态交叉注意力网络，基于所述待处理视...

【专利技术属性】
技术研发人员：郭斌，王豪，陈梦琦，张秋韵，丁亚三，张盈，於志文，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人