下载针对视频语言大模型的多视频联合理解系统的技术资料

文档序号:46073940

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

一种针对视频语言大模型的多视频联合理解系统,包括:视频结构化模块、图融合模块、视觉映射器、视觉编码器和词嵌入层,通过结构化视频表征与图融合机制,避免冗余视觉信息的无效输入,降低模型输入负载,实现数据高效利用;通过跨视频时空信息的整合,有效缓...
该专利属于上海交通大学所有,仅供学习研究参考,未经过上海交通大学授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。