用于处理多模态数据的方法、装置、介质和程序产品制造方法及图纸

技术编号：43972914 阅读：21 留言：0更新日期：2025-01-10 20:00

本申请提供了一种用于处理多模态数据的方法、装置、电子设备、计算机可读介质和计算机程序产品。本申请的方法包括：通过将待处理数据的文本内容进行词表征处理，得到文本特征向量；如果待处理数据包含预定数量的图片，则通过提取每一张图片的图片特征并将图片特征映射至文本特征空间，得到图片特征向量，如果待处理数据中图片张数小于预定数量，则在将图片特征映射至文本特征空间后，对映射结果根据预设的输入序列长度进行零填充；将所述文本特征向量和所述图片特征向量进行特征融合得到的多模态融合特征，作为多模态模型的输入；训练所述多模态模型，以在多模态模型中基于输入的多模态融合特征输出预定预测任务的预测结果。本申请实现了使用一个模型来同时处理纯文本数据和包含文本和图片的数据，节省了计算资源。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种用于处理多模态数据的方法、装置、电子设备、计算机可读介质和计算机程序产品。

技术介绍

1、在现有的社交网络平台中，动态分享功能已成为用户实时信息交流的重要工具。用户可以发布包含文本和图片的动态内容，并享受转发、评论、点赞等互动服务。动态内容主要分为两大类：含图动态和纯文本动态。含图动态不仅包含文本信息，还可附加预定数量的图片，而纯文本动态则仅由文本组成，不包含任何图片。

2、鉴于含图动态和纯文本动态在内容特征上的差异，在对动态和其他类似的数据进行机审时，现有技术通常采用不同的模型来分别处理不同特征的数据。例如，在对动态进行违规审核的场景，采用两种不同的风险分模型来识别违规内容。一种为多模态风险分模型，专门设计来识别含图动态中的违规信息；另一种为文本风险分模型，用于检测纯文本动态是否包含违规内容。

3、然而，这种分离式模型训练方法存在一些明显的不足。因为需要分别处理不同类型的动态内容，所以需要训练、部署两个模型结构相似的模型，从而造成了机器审核资源的重复投入以及后续模型迭代部署中人力资...

【技术保护点】

1.一种用于处理多模态数据的方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述训练所述多模态模型包括：

3.根据权利要求2所述的方法，其中，在多模态模型为风险分模型的场景，所述的下一句预测任务任务的目的是让多模态模型基于输入的第一输入序列和第二输入序列学习到图片和文本之间的相关性。

4.根据权利要求1或2所述的方法，其中，所述如果待处理数据包含预定数量的图片，则通过提取每一张图片的图片特征并将图片特征映射至文本特征空间，得到图片特征向量包括：

5.根据权利要求1或2所述的方法，其中，所述如果待处理数据中图片张数小于预定数量...

【技术特征摘要】

1.一种用于处理多模态数据的方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述训练所述多模态模型包括：

5.根据权利要求1或2所述的方法，其中，所述如果待处理数据中图片张数小于预定数量，则在将图片特征映射至文本特征空间后，对映射结果根...

【专利技术属性】
技术研发人员：丁建文，包颖，黄彦春，
申请(专利权)人：上海哔哩哔哩科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人