数据多模态表征方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42843677 阅读:25 留言:0更新日期:2024-09-27 17:14
本发明专利技术实施例公开了一种数据多模态表征方法、装置、电子设备及存储介质,该方法包括:获取待处理数据;基于待处理数据和预先训练得到的多模态表征模型,确定与待处理数据相对应的多模态表征向量;其中,多模态表征模型中包括视频处理子模型、文本处理子模型以及多模态解码器,视频处理子模型用于对视频帧序列和提示文本处理,文本处理子模型用于对文本内容和提示文本处理,多模态解码器用于对视频处理子模型和文本处理子模型输出的结果进行融合处理,得到建立视频帧序列和文本内容之间关联关系的多模态表征向量。通过本发明专利技术实施例的技术方案,以实现便捷、高效地建立视频帧序列和文本内容之间准确关联关系的多模态表征向量的技术效果。

【技术实现步骤摘要】

本专利技术实施例涉及计算机,尤其涉及一种数据多模态表征方法、装置、电子设备及存储介质


技术介绍

1、视频作为信息传播的主要方式之一,可以更加直观地展示物品的外观、功能和特点。例如,可以将推广物品的视频和表征视频内容中物品的文本内容上传至电商平台,并利用视频在电商平台上进行推广,从而更好地展示推广物品的特点和优势。同时,为了向用户推送适合的物品,可以利用用户感兴趣的视频和文本内容,了解用户的需求从而推送合适的物品。但视频和文本内容属于不同模态的数据,无法针对视频和文本内容之间的关联关系进行独立表征,也就无法综合视频和文本内容确定合适的推送物品。即存在无法通过一个数据准确表征视频和文本内容之间关联关系的问题。

2、为了解决无法通过一个数据准确表征视频和文本内容之间关联关系问题,目前采用的方式是:利用现有的视频模型对视频抽取特征向量,利用现有的文本模型对文本内容抽取特征向量,并利用各种损失函数,使得这两类特征向量在同一向量空间中进行对齐,以实现基于对齐结果表征视频和文本内容之间的关联关系。

3、专利技术人在基于上述方式实施本技术方案时,本文档来自技高网...

【技术保护点】

1.一种数据多模态表征方法,其特征在于,包括:

2.根据权利要求1所述的方法,在所述获取待处理数据之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据和预先训练得到的多模态表征模型,确定与所述待处理数据相对应的多模态表征向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述视频处理子模型包括视频编码子模型和第一对齐子模型,所述基于所述视频处理子模型对所述视频帧序列和所述提示文本进行处理,得到建立视频帧和提示文本之间关系的视频向量,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述文本处理...

【技术特征摘要】

1.一种数据多模态表征方法,其特征在于,包括:

2.根据权利要求1所述的方法,在所述获取待处理数据之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据和预先训练得到的多模态表征模型,确定与所述待处理数据相对应的多模态表征向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述视频处理子模型包括视频编码子模型和第一对齐子模型,所述基于所述视频处理子模型对所述视频帧序列和所述提示文本进行处理,得到建立视频帧和提示文本之间关系的视频向量,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述文本处理子模型对所述文本内容和所述提示文本进行处理,得到建立提示文本和文本内容之间关系的文本向量,包括:

6.根据权利要求3所述的方法,其特征在于,所述基于所述...

【专利技术属性】
技术研发人员:赵建博谢奇奇张屹峰刘朋樟包勇军
申请(专利权)人:北京沃东天骏信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1