【技术实现步骤摘要】
本专利技术涉及人工智能、计算机视觉、自然语言处理领域,具体一种基于双模态数据融合的复杂场景逻辑推理方法与系统。
技术介绍
1、随着现代科技的发展,传感器、摄像头、麦克风等设备的普及,人们可以轻易地获取其所身处的环境信息。这些信息以多模态数据的形式存在,包括图像、视频、语音和文本等。在这些多模态数据中,蕴含了关于用户自身与空间环境之间的孪生映射关系。这些孪生映射关系描述了用户与环境之间的相互作用、行为模式和语义关联等。如何将这些孪生映射关系自动化地描述出来并加以逻辑推理,实现能够理解人类与环境之间深层次联系的场景逻辑推理方法,成为了计算机视觉和自然语言处理领域的一个重要挑战。
2、场景逻辑推理研究涉及认知能力、逻辑推理、计算机视觉和自然语言处理等多个领域的重要研究方向,旨在利用计算机视觉和自然语言处理技术,从图像、视频和文本等多模态数据中提取有意义的信息,推断场景中的对象、关系和动作等语义结构,并进行推理和推断。这种全局理解和推理能力可以帮助计算机系统更好地理解人类的意图和需求,实现更智能化、更人性化的交互和服务。
【技术保护点】
1.一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述检测视频情景中的动作、场景、实体和实体关系,具体为:
3.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用目标检测网络实现对实体的检测,具体为:
4.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用关系检测网络获取环境内实体目标之间的复杂关系,具体为:
5.如权利要求2所述的一种基于双模态数
...【技术特征摘要】
1.一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述检测视频情景中的动作、场景、实体和实体关系,具体为:
3.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用目标检测网络实现对实体的检测,具体为:
4.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用关系检测网络获取环境内实体目标之间的复杂关系,具体为:
5.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用动作检测网络检测场景内每一个实体的动作信息,具体为:
6.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用场景检测网络实现对视频场景的检测,具体为:
7.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述以所述动作、场景、实体和实体关系作为输入,运用无监督描述算法生成所述视频情景的文本描述contextobs,具体为:
8.如权利要求1所述的一种基于双模态数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。