一种基于多层次编码的社交媒体图文多模态数据分类方法技术

技术编号：40280645 阅读：5 留言：0更新日期：2024-02-07 20:35

本发明专利技术公开了一种基于多层次编码的社交媒体图文多模态数据分类方法，属于多模态数据分类领域，该方法充分挖掘了单模态数据的有效信息，不仅关注了不同层次特征之间的相关性，而且更好地捕捉了模态间的依赖关系；高效地进行多模态融合和多层次融合，且有效避免引入冗余信息和噪声。该方法利用多层次编码和特征融合来进行社交媒体图文多模态数据分类，能够有效地提取并融合多模态特征，提高分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态数据分类领域，更具体地，涉及一种基于多层次编码的社交媒体图文多模态数据分类方法。

技术介绍

1、随着移动互联网技术的飞速发展，社交媒体在人们表达观点和获取信息的过程中，承担了不可缺少的角色。社交媒体向用户提供了便捷的信息传播和收集途径，而用户也逐渐习惯于在线上社交圈中分享个人的日常观点和情感信息。大量社交媒体平台(如twitter、tiktok、微博和小红书等)都拥有数亿的活跃用户，因此每天都会产生海量的社交媒体数据。这些社交媒体数据通常以多模态的形式出现，如图像文字对、视频文字对等，其中包含着大量的有用信息，需要快速且准确的进行筛选和提取。相应的分类结果在情感分析、个性化推荐等方面都起着至关重要的作用。例如，公司可以更全面地了解市场对其产品的需求和兴趣。

2、现有的社交媒体多模态分类方法按照多模态融合的阶段可分为数据融合、决策融合和特征融合三类。数据融合是将多个模态的原始数据融合到一起，然后输入到分类器。这类方法可以更灵活地组合来自多个来源的信息，但是对原始数据进行直接融合可能会引入较大的冗余和噪声，并且会带来更大的计算量和资源消耗。决策融合是针对每个单模态数据都有独立的特征提取模块和分类器，最后根据决策方法整合各个单模态的分类结果并给出最终的分类结果。这类方法一般通过集成策略对多个模态的输出结果进行融合操作，无法学习多个模态间的特征交互信息。特征融合是对原始单模态数据分别进行特征提取，然后融合多个单模态特征，得到多模态特征输入分类器。这类方法是目前研究和应用最广泛的方法，但是很容易引起维度爆炸或信息缺失。

技术实现思路

1、针对现有技术的以上缺陷或改进需求，本专利技术提供了一种基于多层次编码的社交媒体图文多模态数据分类方法，不仅关注了不同层次特征之间的相关性，而且更好地捕捉了模态间的依赖关系，能够进行高效的多层次特征融合和多模态特征融合，提高分类准确率。

2、为实现上述目的，按照本专利技术的第一方面，提供了一种基于多层次编码的社交媒体图文多模态数据分类方法，包括：

3、训练阶段：

4、以图文多模态数据为训练样本，以所述图文多模态数据的真实分类信息为标签，对mm-ml模型进行监督训练；

5、其中，所述mm-ml模型包括：特征提取模块，用于提取所述图文多模态数据的多个层次的文本特征及图像特征；多模态特征融合模块，用于对同一层次的文本特征及图像特征进行融合，得到多个不同层次的多模态融合特征；多层次特征融合模块，用于对所述多个层次的多模态融合特征进行层次间的融合，得到多层次多模态融合特征；多模态分类模块，用于对多层次多模态融合特征进行分类得到其预测分类信息；

6、所述图文多模态数据包括互相匹配的一段文字和一张图片；

7、应用阶段：

8、将待分类的图文多模态数据输入至训练好的mm-ml模型，得到其分类信息。

9、按照本专利技术的第二方面，提供了一种基于多层次编码的社交媒体图文多模态数据分类系统，包括：计算机可读存储介质和处理器；

10、所述计算机可读存储介质用于存储可执行指令；

11、所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如第一方面所述的方法。

12、按照本专利技术的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如第一方面所述的方法。

13、总体而言，通过本专利技术所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

14、本专利技术提供的方法，充分挖掘了单模态数据的有效信息，不仅关注了不同层次特征之间的相关性，而且更好地捕捉了模态间的依赖关系；高效地进行多模态融合和多层次融合，且有效避免引入冗余信息和噪声。该方法利用多层次编码和特征融合来进行社交媒体图文多模态数据分类，能够有效地提取并融合多模态特征，提高分类的准确率。

本文档来自技高网...

【技术保护点】

1.一种基于多层次编码的社交媒体图文多模态数据分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述多层次特征融合模块分别对各层次的多模态融合特征进行内部编码，并基于各门控单元分别计算各层次多模态融合特征的层次贡献度，最后将各层次的多模态融合特征的内部编码表示分别与对应的层次贡献度进行点积运算后，再进行加法运算，得到多层次多模态融合特征。

3.如权利要求1或2所述的方法，其特征在于，所述多模态特征融合模块分别对同一层次的文本特征及图像特征进行内部编码，并基于门控单元分别计算文本特征及图像特征的模态贡献度，最后将将文本特征及图像特征的内部编码表示分别与对应的贡献度进行点积运算后，再进行加法运算，得到该层次的多模态融合特征。

4.如权利要求1所述的方法，其特征在于，所述特征提取模块包括文本特征提取器和图像特征提取器，分别用于提取所述图文多模态数据的多个层次的文本特征和多个层次的图像特征。

5.如权利要求4所述的方法，所述文本特征提取器基于BERT模型构建，所述图像特征提取器基于ViT模型构建，所述BERT模型和ViT

6.一种基于多层次编码的社交媒体图文多模态数据分类系统，其特征在于，包括：计算机可读存储介质和处理器；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行如权利要求1-5任一项所述的方法。

...

【技术特征摘要】

1.一种基于多层次编码的社交媒体图文多模态数据分类方法，其特征在于，包括：

【专利技术属性】
技术研发人员：李雨诗，朱明，郑鑫，陶云飞，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人