当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于双模态数据融合的复杂场景逻辑推理方法与系统技术方案

技术编号:41327400 阅读:39 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开了一种基于双模态数据融合的复杂场景逻辑推理方法与系统。检测视频情景中的动作、场景、实体和实体关系,输入无监督描述算法生成视频情景的文本描述;利用语音识别技术获取对话文本;把文本问题、文本描述、对话文本输入到BERT模型中,提取得到各自的特征;输入到双模态特征融合与推理网络,通过transformer模型的特征融合与推理得到双模态特征内模态间与模态内的复杂时空关联;使用前馈网络FFN和softmax层得到最终的推理预测结果。本发明专利技术借助双模态特征融合与推理能够综合考虑模态内与模态间之间复杂的时空关联,提升了复杂场景的推理能力。借助可定制的场景描述的生成规则,过滤掉存在于用户与空间的孪生环境下的敏感信息,保护用户隐私。

【技术实现步骤摘要】

本专利技术涉及人工智能、计算机视觉、自然语言处理领域,具体一种基于双模态数据融合的复杂场景逻辑推理方法与系统


技术介绍

1、随着现代科技的发展,传感器、摄像头、麦克风等设备的普及,人们可以轻易地获取其所身处的环境信息。这些信息以多模态数据的形式存在,包括图像、视频、语音和文本等。在这些多模态数据中,蕴含了关于用户自身与空间环境之间的孪生映射关系。这些孪生映射关系描述了用户与环境之间的相互作用、行为模式和语义关联等。如何将这些孪生映射关系自动化地描述出来并加以逻辑推理,实现能够理解人类与环境之间深层次联系的场景逻辑推理方法,成为了计算机视觉和自然语言处理领域的一个重要挑战。

2、场景逻辑推理研究涉及认知能力、逻辑推理、计算机视觉和自然语言处理等多个领域的重要研究方向,旨在利用计算机视觉和自然语言处理技术,从图像、视频和文本等多模态数据中提取有意义的信息,推断场景中的对象、关系和动作等语义结构,并进行推理和推断。这种全局理解和推理能力可以帮助计算机系统更好地理解人类的意图和需求,实现更智能化、更人性化的交互和服务。

>3、在智能家居领域本文档来自技高网...

【技术保护点】

1.一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述检测视频情景中的动作、场景、实体和实体关系,具体为:

3.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用目标检测网络实现对实体的检测,具体为:

4.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用关系检测网络获取环境内实体目标之间的复杂关系,具体为:

5.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑...

【技术特征摘要】

1.一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述检测视频情景中的动作、场景、实体和实体关系,具体为:

3.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用目标检测网络实现对实体的检测,具体为:

4.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用关系检测网络获取环境内实体目标之间的复杂关系,具体为:

5.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用动作检测网络检测场景内每一个实体的动作信息,具体为:

6.如权利要求2所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述使用场景检测网络实现对视频场景的检测,具体为:

7.如权利要求1所述的一种基于双模态数据融合的复杂场景逻辑推理方法,其特征在于,所述以所述动作、场景、实体和实体关系作为输入,运用无监督描述算法生成所述视频情景的文本描述contextobs,具体为:

8.如权利要求1所述的一种基于双模态数...

【专利技术属性】
技术研发人员:周凡刘明阳王若梅赵宝全
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1