一种基于多模态融合的艺术品分类方法及系统技术方案

技术编号：32637483 阅读：20 留言：0更新日期：2022-03-12 18:12

本发明专利技术提供了一种基于多模态融合的艺术品分类方法及系统，属于自然语言处理和计算机视觉领域。该方法首先对艺术品的两种模态的数据进行预处理，然后分别获得文本模态的预测结果和图像的预测结果，并利用学习权重向量得到艺术品分类预测结果。本发明专利技术克服了预先定义决策规则不能从数据中学习的缺点，可以对多模态的分类器预测数据进行权重学习，作为决策规则进行决策级的融合，而且，本发明专利技术克服了单模态艺术品分类的局限性，有效提升了多模态艺术品分类的准确率和鲁棒性。分类的准确率和鲁棒性。分类的准确率和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态融合的艺术品分类方法及系统

[0001]本专利技术属于自然语言处理和计算机视觉领域，具体涉及一种基于多模态融合的艺术品分类方法及系统。

技术介绍

[0002]随着我国艺术策展领域的发展，产生了大量的艺术品资源。在艺术布展中，策展人难以从海量的艺术品数据中快速的找到自己需要呈现效果的布展艺术品。对艺术品的数据进行分类，一方面可以作为内容推荐的基础，为策展人推荐该分类下的馆藏艺术品，为布展节省时间。另一方面，艺术馆藏系统需要经常更新策展库。在策展库更新时，传统的分类归档往往需人工实现，耗费大量人工时间，通过人工智能技术实现艺术品的自动分类，省去了人工筛选分类及归档的时间和精力，无需再阅读每件作品的阐释说明文字和艺术品图片内容，保证了策展库的及时更新。根据艺术品的图像和文本特征将其划分到不同类别从而实现艺术品分类，成为了艺术策展领域结合深度学习方法的重要课题。
[0003]艺术品分类可以分别作为文本和图像分类任务来解决，对于文本模态，经典的文本分类方法TextCNN模型可以有效捕获文本的序列，不需要了解句子的句法或语义结构，就可以在文本分类任务上有较高的结果；对于图像模态，比较经典的图像分类一般选择基于CNN的模型，它能捕捉图像的局部纹理特征，但是缺少对全局信息的建模，而基于Transformer的方法利用了注意力机制能够同时捕捉局部和全局信息。
[0004]目前，艺术品数据的形态不只是局限于单一的图像画作模态，更多的是融合了作者对于艺术品的阐释说明文字、图像呈现等多种模态的数据。如何将不同模...

【技术保护点】

【技术特征摘要】
1.一种基于多模态融合的艺术品分类方法，其特征在于：所述方法首先对艺术品的两种模态的数据进行预处理，然后分别获得文本模态的预测结果和图像的预测结果，并利用学习权重向量得到艺术品分类预测结果。2.根据权利要求1所述的基于多模态融合的艺术品分类方法，其特征在于：所述方法包括：S1、获取多模态艺术品的原始数据集，并分别对两种模态的数据进行预处理，获得归一化处理后的原始图片和词嵌入矩阵；S2、构建文本模态的艺术品分类模型，并利用词嵌入矩阵获得文本模态的分类器预测结果；S3、构建图像模态的艺术品分类模型，并利用归一化处理后的原始图片获得图像的分类器预测结果；S4、分别对文本模态的分类器预测结果、图像的分类器预测结果赋权值，进而获得艺术品分类预测结果。3.根据权利要求2所述的基于多模态融合的艺术品分类方法，其特征在于：所述步骤S1的操作包括：S11、对艺术品图像进行格式处理，得到归一化处理后的原始图片；S12、使用分词工具将艺术品阐释文本进行分词得到分割后的单词，然后将分割后的单词映射成词嵌入矩阵。4.根据权利要求2所述的基于多模态融合的艺术品分类方法，其特征在于：所述步骤S2中通过对文本卷积神经网络融入多层自注意力机制，构建文本模态的艺术品分类模型。5.根据权利要求4所述的基于多模态融合的艺术品分类方法，其特征在于：所述步骤S2的操作包括：S21、对所述词嵌入矩阵进行自注意力计算得到自注意力计算后的特征图；S22、使用三组大小不同的卷积核分别对自注意力计算后的特征图进行卷积操作，获得每组最终激活后的结果；S23、将每组最终激活后的结果分别进行自注意力计算得到特征图；S24、通过池化层提取特征图中每个通道的最大值进行降采样，获得文本模态的分类器预测结果。6.根据权利要求2所述的基于多模态融合的艺术品分类方法，其特征在于：所述步骤S3的操作包括：S31、将归一化处理后的原始图片分割为多个图片块，获得序列化后的图片块；S32、为序列化后的图片块加入位置编码信息得到加入位置信息的向量序列；S33、将加入位置信息的向量序列送入ViT模型...

【专利技术属性】
技术研发人员：蒋蕊，司思，
申请(专利权)人：北京化工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人