一种具有可解释性和知识启发能力的视频问答方法与系统技术方案

技术编号：40026004 阅读：38 留言：0更新日期：2024-01-16 17:30

本发明专利技术公开了一种具有可解释性和知识启发能力的视频问答方法与系统。包括：将视频输入VGG网络和I3D网络提取视频特征序列；将用户问题输入BERT网络提取问题向量表示；将视频特征序列和问题向量表示输入交叉Transformer网络和贝叶斯可微的神经网络，得到视频场景的因果表示；将问题向量表示和视频场景的因果表示输入GPT‑3模型中，通过该模型的编码‑解码结构生成知识引导的问题表示；将知识引导的问题表示输入Transformer解码网络得到用户问题的答案；通过自注意力机制、可视化工具和解释性描述，将所述知识引导的问题表示和所述用户问题的答案可视化。本发明专利技术能够提高视频问答模型的准确性、解释性和鲁棒性，从而提升用户体验和应用的实用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频理解领域，具体涉及一种具有可解释性和知识启发能力的视频问答方法与系统。

技术介绍

1、视频问答为视频内容的搜索、浏览和理解提供了新的途径，在当下具有广泛的应用空间，包括智能助理、教育培训、视频内容管理等领域。如何实现视觉和语言之间的跨模态理解和对齐以及解决多模态信息的融合和推理是视频问答领域中关键的技术挑战。同时推理过程和生成结果的可解释性也是评价视频问答模型的重要指标之一。

2、因果推理可以使视频问答模型更准确地理解视频中不同元素之间的因果关联、识别对问题答案生成具有关键意义的因果场景。有多种途径可以实现视频问答模型的因果关系建模，包括传统的统计因果模型如因果图、因果贝叶斯网络等以及深度学习模型。

3、在视频问答领域，大型语言模型可以作为基础模型，提供文本理解、问题回答和知识推理等关键功能。通过预训练，大型语言模型可以在海量的文本数据中学习到通用的语言知识和语义表示，在此基础上从问题中提取关键信息、生成准确且连贯的回答并对视频问答模型进行指导和监督。

4、通过引入外部知识对视频问答...

【技术保护点】

1.一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述将视频输入VGG网络和I3D网络提取视频特征序列，具体为：

3.如权利要求1所述的一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述将用户问题输入BERT网络提取问题向量表示，具体为：

4.如权利要求1所述的一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述将所述视频特征序列和所述问题向量表示输入交叉Transformer网络和贝叶斯可微的神经网络，得到视频场景的因果表...

【技术特征摘要】

1.一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述将视频输入vgg网络和i3d网络提取视频特征序列，具体为：

3.如权利要求1所述的一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述将用户问题输入bert网络提取问题向量表示，具体为：

4.如权利要求1所述的一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述将所述视频特征序列和所述问题向量表示输入交叉transformer网络和贝叶斯可微的神经网络，得到视频场景的因果表示，具体为：

5.如权利要求1所述的一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述将所述知识引导的问题表示输入transformer解码网络得到所述用户问题的答案，具体为：

6.如权利要求1所述的一种具有可解释性和知识启发能力的视频问答方法，其特征在于，所述通过自注意力机制、可视化工具和解释性描述，将所述知识引导的问题表示和所述用户问题的答案可视化为易于用户理解的答案选择和生成的合理解释，具体为：

7.一种具有可解释性和知识启发能力的视频问...

【专利技术属性】
技术研发人员：周凡，王若梅，林格，张富为，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人