【技术实现步骤摘要】
本申请的实施例涉及视频对话生成,特别涉及一种基于级联时空注意力网络的高效细粒度视频对话生成方法。
技术介绍
1、多模态语义理解和生成是人工智能领域重要的研究方向,目前已经发展出了诸多的前沿应用,例如视觉问答系统、视频摘要系统等,而视频对话系统的研究近年来受到了广泛的关注。基于给定的视频内容和多轮对话上下文,视频对话系统需要根据当前的对话输入,综合考虑视频内容与多轮对话上下文,生成符合视觉和文本语义信息的对话回复。
2、视频对话系统的研究面临诸多挑战:首先是对话问题通常与视频不同粒度的多个概念相关联,例如物体的空间关系,事件的时空关系等,这种复杂关联需要进行联合推理才能精准捕捉;其次是视频和文本模态之间存在巨大的语义鸿沟,全面的跨模态语义对齐对根据对话上下文精准理解视频语义信息是至关重要的。
3、现已有研究者对视频对话生成技术进行了探索,最初的研究是利用预训练的3d卷积神经网络,或者是简单的循环神经网络,再或者是transformer模型来提取跨模态的特征,这些无法准确捕捉视频中的复杂时空信息。后续有研究者提出了基
...【技术保护点】
1.一种基于级联时空注意力网络的高效细粒度视频对话生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于级联时空注意力网络的高效细粒度视频对话生成方法,其特征在于,所述利用预训练的级联时空注意力网络,基于所述对话上下文语义特征和所述视觉语义特征进行相关匹配,在时间维度上定位与所述对话上下文最相关的视频片段集合,在空间维度上定位与所述对话上下文最相关的空间区域集合,并基于所述视频片段集合和所述空间区域集合得到视频时空特征,包括:
3.根据权利要求2所述的基于级联时空注意力网络的高效细粒度视频对话生成方法,其特征在于,所述视频时间特征通
...【技术特征摘要】
1.一种基于级联时空注意力网络的高效细粒度视频对话生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于级联时空注意力网络的高效细粒度视频对话生成方法,其特征在于,所述利用预训练的级联时空注意力网络,基于所述对话上下文语义特征和所述视觉语义特征进行相关匹配,在时间维度上定位与所述对话上下文最相关的视频片段集合,在空间维度上定位与所述对话上下文最相关的空间区域集合,并基于所述视频片段集合和所述空间区域集合得到视频时空特征,包括:
3.根据权利要求2所述的基于级联时空注意力网络的高效细粒度视频对话生成方法,其特征在于,所述视频时间特征通过以下公式表示:
4.根据权利要求3所述的基于级联时空注意力网络的高效细粒度视频对话生成方法,其特征在于,所述视频空间特征通过以下公式表示:
5.根据权利要求1所述的基于级联时空注意力网络的高效细粒度视频对话生成方法,其特征在于,所述利用预训练的迭代式跨模态交叉注意力网络,基于所述待处理视...
【专利技术属性】
技术研发人员:郭斌,王豪,陈梦琦,张秋韵,丁亚三,张盈,於志文,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。