System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于双模态数据融合的复杂场景逻辑推理方法与系统技术方案_技高网
当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于双模态数据融合的复杂场景逻辑推理方法与系统技术方案

技术编号:41327400 阅读:6 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开了一种基于双模态数据融合的复杂场景逻辑推理方法与系统。检测视频情景中的动作、场景、实体和实体关系,输入无监督描述算法生成视频情景的文本描述;利用语音识别技术获取对话文本;把文本问题、文本描述、对话文本输入到BERT模型中,提取得到各自的特征;输入到双模态特征融合与推理网络,通过transformer模型的特征融合与推理得到双模态特征内模态间与模态内的复杂时空关联;使用前馈网络FFN和softmax层得到最终的推理预测结果。本发明专利技术借助双模态特征融合与推理能够综合考虑模态内与模态间之间复杂的时空关联,提升了复杂场景的推理能力。借助可定制的场景描述的生成规则,过滤掉存在于用户与空间的孪生环境下的敏感信息,保护用户隐私。

【技术实现步骤摘要】

本专利技术涉及人工智能、计算机视觉、自然语言处理领域,具体一种基于双模态数据融合的复杂场景逻辑推理方法与系统


技术介绍

1、随着现代科技的发展,传感器、摄像头、麦克风等设备的普及,人们可以轻易地获取其所身处的环境信息。这些信息以多模态数据的形式存在,包括图像、视频、语音和文本等。在这些多模态数据中,蕴含了关于用户自身与空间环境之间的孪生映射关系。这些孪生映射关系描述了用户与环境之间的相互作用、行为模式和语义关联等。如何将这些孪生映射关系自动化地描述出来并加以逻辑推理,实现能够理解人类与环境之间深层次联系的场景逻辑推理方法,成为了计算机视觉和自然语言处理领域的一个重要挑战。

2、场景逻辑推理研究涉及认知能力、逻辑推理、计算机视觉和自然语言处理等多个领域的重要研究方向,旨在利用计算机视觉和自然语言处理技术,从图像、视频和文本等多模态数据中提取有意义的信息,推断场景中的对象、关系和动作等语义结构,并进行推理和推断。这种全局理解和推理能力可以帮助计算机系统更好地理解人类的意图和需求,实现更智能化、更人性化的交互和服务。

3、在智能家居领域,通过理解场景中的人体动作和环境状态,智能系统可以自动调节照明、温度和安全设备等,提供更智能化的生活体验。在自动驾驶领域,通过准确理解和推理交通场景中的车辆、行人和道路情况,自动驾驶系统可以做出更安全、更智能的驾驶决策。在虚拟现实和增强现实领域,场景逻辑推理可以帮助虚拟场景更真实地模拟现实世界,增强用户的沉浸感和体验效果。因此,提高计算机对复杂场景的理解和推理能力,可以提供更智能化、更人性化的计算机系统和应用,为人类生活和工作可以带来更多便利和效益。

4、尽管场景逻辑推理在多个应用领域中具有广泛的潜力,但在当前阶段仍然存在一些挑战和问题。首先,多模态数据的复杂性和异构性导致了场景逻辑推理的困难。不同类型的数据具有不同的特点和表示方式,如何有效地融合和建模这些数据,以实现准确的场景理解和描述仍然是一个重要的研究问题。其次,由于场景逻辑推理涉及多个领域的知识和技术,如计算机视觉、自然语言处理和知识表示等,如何进行跨领域的合作和集成,以构建强大而全面的场景逻辑推理系统,也是一个需要解决的问题。此外,在场景逻辑推理中,缺乏对用户数据的加密保护可能会导致隐私泄露。在用户自身与空间环境之间的孪生环境下进行场景逻辑推理时,用户可能会提供包含敏感个人信息的图像等数据。如果这些数据没有得到充分的加密保护,可能会导致用户隐私的泄露和滥用。因此,如何提高景逻辑推理的隐私性,保护用户隐私,是场景逻辑推理中亟待解决的问题。

5、目前的现有技术之一为专利“一种基于场景图推理的视频问答方法(cn115599954a)”。该技术将场景逻辑推理任务分解为了多模态提取特征与数据融合与推理的两阶段任务。在多模态提取特征任务中,该类方法使用了一系列的深度神经网络提取出视频内丰富的外观信息,空间位置信息、动作信息、字幕、语音和问题等多模态信息的特征编码。接着,在数据融合与推理阶段。该类方法使用跨模态注意力,动作外观记忆网络和图神经网络等一系列逻辑推理模型,实现对场景的逻辑推理。该技术的缺点是,场景逻辑推理系统是对原始数据进行处理,缺乏对数据的加密,可能会导致用户隐私的泄露和滥用。其次,推理过程中缺乏对模态内的复杂关系挖掘。

6、目前的现有技术之二为论文“dense-caption matching and frame-selectiongating for temporal localization in videoqa”与“knowledge-based video questionanswering with unsupervised scene descriptions”的基于视频字幕技术的场景逻辑推理系统及方法。该技术利用视频字幕生成技术将视频内所能识别出的关系描述出来,获取场景的文本描述,统一了不同多模态数据的表示方式。该技术的缺点是,现阶段的密集字幕技术往往需要大量人工标注的数据集对其进行训练,而人工标注必然是费时费力的,训练一个应用于特殊视频问答的密集字幕生成算法无疑也是费时费力的。其次,缺乏对敏感信息的屏蔽,无法过滤掉用户的敏感信息,导致用户隐私的泄露。


技术实现思路

1、本专利技术的目的是克服现有方法的不足,提出了一种基于双模态数据融合的复杂场景逻辑推理方法与系统。本专利技术解决的主要问题,一是通过无监督的手段获取复杂场景的准确描述,以解决大量人工标注的低效率问题;二是通过设计场景描述的生成规则,过滤掉那些可能存在于用户自身与空间环境之间的孪生环境下的敏感信息,保护用户隐私。

2、为了解决上述问题,本专利技术提出了一种基于双模态数据融合的复杂场景逻辑推理方法,所述方法包括:

3、输入视频,检测视频情景中的动作、场景、实体和实体关系;

4、以所述动作、场景、实体和实体关系作为输入,运用无监督描述算法生成所述视频情景的文本描述contextobs;

5、利用语音识别技术,获取所述视频内的对话文本contextsub;

6、记用户进行提问的文本问题为q,把所述文本问题q、所述文本描述contextobs、所述对话文本contextsub输入到bert模型中,提取得到所述文本问题q的特征q、所述文本描述contextobs的特征hobs,所述对话文本contextsub的特征hsub;

7、将所述文本描述特征hobs,所述对话文本特征hsub,所述文本问题特征q作为双模态特征融合与推理网络的输入,通过transformer模型的特征融合与推理,分别得到双模态特征内模态间与模态内的复杂时空关联和

8、以所述双模态特征内模态间与模态内的复杂时空关联和作为输入,使用前馈网络ffn和softmax层得到最终的推理预测结果δ。

9、优选地,所述检测视频情景中的动作、场景、实体和实体关系,具体为:

10、使用目标检测网络实现对实体的检测;

11、使用关系检测网络获取环境内实体目标之间的复杂关系;

12、使用动作检测网络检测场景内每一个实体的动作信息;

13、使用场景检测网络实现对视频场景的检测。

14、优选地,所述使用目标检测网络实现对实体的检测,具体为:

15、用户首先在终端上传实体照片,完成所有实体的注册;

16、以实体信息中实体图像i-实体名称f对为数据集,对facenet进行训练,并使用下列三元组损失实现网络的收敛:

17、

18、其中μ为控制系数,防止数据溢出;l2表示目标值与估计值的绝对差值的平方总和,即欧氏距离,用于评估快模态特征之间的差异;表示使用resnet所获取的实体图像特征,表示与是同一实体而不同图像的特征,表示与不是同一实体的图像特征,m1和m2是一种由全连接层组成的前馈神经网络;

19、利用训练完成的facenet实现对实体的检测。

...

【技术保护点】

1.一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述检测视频情景中的动作、场景、实体和实体关系,具体为:

3.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用目标检测网络实现对实体的检测,具体为:

4.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用关系检测网络获取环境内实体目标之间的复杂关系,具体为:

5.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用动作检测网络检测场景内每一个实体的动作信息,具体为:

6.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用场景检测网络实现对视频场景的检测,具体为:

7.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述以所述动作、场景、实体和实体关系作为输入,运用无监督描述算法生成所述视频情景的文本描述contextobs,具体为:

8.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述把所述文本问题Q、所述文本描述contextobs、所述对话文本contextsub输入到BERT模型中,提取得到所述文本问题Q的特征q、所述文本描述contextobs的特征hobs,所述对话文本contextsub的特征hsub,具体为:

9.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述将所述文本描述特征hobs,所述对话文本特征hsub,所述文本问题特征q作为双模态特征融合与推理网络的输入,通过transformer模型的特征融合与推理,分别得到双模态特征内模态间与模态内的复杂时空关联和具体为:

10.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述以所述双模态特征内模态间与模态内的复杂时空关联和作为输入,使用前馈网络FFN和softmax层得到最终的推理预测结果δ,具体为:

11.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述双模态特征融合与推理网络需要使用交叉熵损失函数对进行训练,具体为:

12.一种基于双模态数据融合的复杂场景逻辑推理系统,其特征在于,所述系统包括:

...

【技术特征摘要】

1.一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述检测视频情景中的动作、场景、实体和实体关系,具体为:

3.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用目标检测网络实现对实体的检测,具体为:

4.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用关系检测网络获取环境内实体目标之间的复杂关系,具体为:

5.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用动作检测网络检测场景内每一个实体的动作信息,具体为:

6.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用场景检测网络实现对视频场景的检测,具体为:

7.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述以所述动作、场景、实体和实体关系作为输入,运用无监督描述算法生成所述视频情景的文本描述contextobs,具体为:

8.如权利要求1所述的一种基于双模态数...

【专利技术属性】
技术研发人员:周凡刘明阳王若梅赵宝全
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1