下载基于Token采样的多模态视频字幕生成方法的技术资料

文档序号:37964080

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本发明涉及一种基于Token采样的多模态视频字幕生成方法,属于人工智能技术领域,解决了现有技术中延迟过高,计算速率慢的问题。具体包括:对视频中各帧图像进行CNN卷积处理得到处理后的各图像;获取各图像的多个一维图片向量,将每个一维图片向量作为...
该专利属于中国科学院微电子研究所所有,仅供学习研究参考,未经过中国科学院微电子研究所授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。