一种基于多模态融合的艺术品分类方法及系统技术方案

技术编号:32637483 阅读:20 留言:0更新日期:2022-03-12 18:12
本发明专利技术提供了一种基于多模态融合的艺术品分类方法及系统,属于自然语言处理和计算机视觉领域。该方法首先对艺术品的两种模态的数据进行预处理,然后分别获得文本模态的预测结果和图像的预测结果,并利用学习权重向量得到艺术品分类预测结果。本发明专利技术克服了预先定义决策规则不能从数据中学习的缺点,可以对多模态的分类器预测数据进行权重学习,作为决策规则进行决策级的融合,而且,本发明专利技术克服了单模态艺术品分类的局限性,有效提升了多模态艺术品分类的准确率和鲁棒性。分类的准确率和鲁棒性。分类的准确率和鲁棒性。

【技术实现步骤摘要】
一种基于多模态融合的艺术品分类方法及系统


[0001]本专利技术属于自然语言处理和计算机视觉领域,具体涉及一种基于多模态融合的艺术品分类方法及系统。

技术介绍

[0002]随着我国艺术策展领域的发展,产生了大量的艺术品资源。在艺术布展中,策展人难以从海量的艺术品数据中快速的找到自己需要呈现效果的布展艺术品。对艺术品的数据进行分类,一方面可以作为内容推荐的基础,为策展人推荐该分类下的馆藏艺术品,为布展节省时间。另一方面,艺术馆藏系统需要经常更新策展库。在策展库更新时,传统的分类归档往往需人工实现,耗费大量人工时间,通过人工智能技术实现艺术品的自动分类,省去了人工筛选分类及归档的时间和精力,无需再阅读每件作品的阐释说明文字和艺术品图片内容,保证了策展库的及时更新。根据艺术品的图像和文本特征将其划分到不同类别从而实现艺术品分类,成为了艺术策展领域结合深度学习方法的重要课题。
[0003]艺术品分类可以分别作为文本和图像分类任务来解决,对于文本模态,经典的文本分类方法TextCNN模型可以有效捕获文本的序列,不需要了解句子的句法或语义结构,就可以在文本分类任务上有较高的结果;对于图像模态,比较经典的图像分类一般选择基于CNN的模型,它能捕捉图像的局部纹理特征,但是缺少对全局信息的建模,而基于Transformer的方法利用了注意力机制能够同时捕捉局部和全局信息。
[0004]目前,艺术品数据的形态不只是局限于单一的图像画作模态,更多的是融合了作者对于艺术品的阐释说明文字、图像呈现等多种模态的数据。如何将不同模态的信息进行有效的融合是多模态艺术品分类的关键。
[0005]在进行多模态分类的研究中,比较常用的多模态融合方法主要包括特征层融合和决策层融合。特征层融合方法考虑了不同模态特征的互补性,但没有考虑不同模态特征在分类中的差异性,只是简单的通过特征拼接进行融合。然而决策层融合通常基于各模态的分类器的预测结果,再依据相关规则进行决策判断,作为最终的分类识别结果。
[0006]相比之下,决策层融合方法根据不同模态信息的贡献不同,考虑了不同模态信息之间的差异性。当然,基于决策层融合的多模态艺术品分类性能不仅与单模态的分类器性能有关,还依赖于决策层融合方法的性能。
[0007]综合考虑以上问题,本专利技术提出一种基于多模态融合的艺术品分类方法,通过使用艺术品的图像信息、艺术品的阐释文本两种模态的数据共同进行分类来增强分类的结果。

技术实现思路

[0008]本专利技术的目的在于解决上述现有技术中存在的难题,提供一种基于多模态融合的艺术品分类方法及系统,利用两种模态的艺术品分类艺术品类别预测概率向量数据进行权重学习加权融合,得到多模态艺术品类别预测概率向量,可以有效提升多模态艺术品分类
的准确率和鲁棒性。
[0009]本专利技术是通过以下技术方案实现的:
[0010]本专利技术的第一个方面,提供了一种基于多模态融合的艺术品分类方法,所述方法首先对艺术品的两种模态的数据进行预处理,然后分别获得文本模态的预测结果和图像的预测结果,并利用学习权重向量得到艺术品分类预测结果。
[0011]本专利技术的进一步改进在于:
[0012]所述方法包括:
[0013]S1、获取多模态艺术品的原始数据集,并分别对两种模态的数据进行预处理,获得归一化处理后的原始图片和词嵌入矩阵;
[0014]S2、构建文本模态的艺术品分类模型,并利用词嵌入矩阵获得文本模态的分类器预测结果;
[0015]S3、构建图像模态的艺术品分类模型,并利用归一化处理后的原始图片获得图像的分类器预测结果;
[0016]S4、分别对文本模态的分类器预测结果、图像的分类器预测结果赋权值,进而获得艺术品分类预测结果。
[0017]本专利技术的进一步改进在于:
[0018]所述步骤S1的操作包括:
[0019]S11、对艺术品图像进行格式处理,得到归一化处理后的原始图片;
[0020]S12、使用分词工具将艺术品阐释文本进行分词得到分割后的单词,然后将分割后的单词映射成词嵌入矩阵。
[0021]本专利技术的进一步改进在于:
[0022]所述步骤S2中通过对文本卷积神经网络融入多层自注意力机制,构建文本模态的艺术品分类模型。
[0023]本专利技术的进一步改进在于:
[0024]所述步骤S2的操作包括:
[0025]S21、对所述词嵌入矩阵进行自注意力计算得到自注意力计算后的特征图;
[0026]S22、使用三组大小不同的卷积核分别对自注意力计算后的特征图进行卷积操作,获得每组最终激活后的结果;
[0027]S23、将每组最终激活后的结果分别进行自注意力计算得到特征图;
[0028]S24、通过池化层提取特征图中每个通道的最大值进行降采样,获得文本模态的分类器预测结果。
[0029]本专利技术的进一步改进在于:
[0030]所述步骤S3的操作包括:
[0031]S31、将归一化处理后的原始图片分割为多个图片块,获得序列化后的图片块;
[0032]S32、为序列化后的图片块加入位置编码信息得到加入位置信息的向量序列;
[0033]S33、将加入位置信息的向量序列送入ViT模型编码器模块进行特征提取;
[0034]S34、将ViT模型编码器模块提取到的特征进行线性变换并激活后得到图像的分类器预测结果。
[0035]本专利技术的进一步改进在于:
[0036]所述步骤S31的操作包括:
[0037]S311、将图片块的边长的一半作为卷积的滑动步长,并利用卷积变换将归一化处理后的原始图片分割成l个图片块;
[0038]S312、将每个图片块展平为一维向量,获得序列化后的图片块。
[0039]本专利技术的进一步改进在于:
[0040]所述步骤S4的操作包括:
[0041]对文本模态的分类器预测结果赋值一个学习权重向量,获得文本模态的分类器计算结果;
[0042]将1减去文本模态的分类器预测结果的学习权重向量得到的值作为图像的分类器预测结果的学习权重向量,并对图像的分类器预测结果赋值该学习权重向量得到图像的分类器计算结果;所述学习权重向量为位于0和1之间的一个数值;
[0043]将文本模态的分类器计算结果和图像的分类器计算结果相加后,输入到含有一层全连接层和一个SoftMax激活层的MLP中,获得艺术品分类预测结果。
[0044]本专利技术的第二个方面,提供了一种基于多模态融合的艺术品分类系统,所述系统包括:
[0045]数据采集处理单元:用于采集多模态艺术品的原始数据集,并分别对两种模态的数据进行预处理,获得归一化处理后的原始图片和词嵌入矩阵;
[0046]文本预测单元:与所述数据采集处理单元连接,用于构建文本模态的艺术品分类模型,并利用词嵌入矩阵获得文本模态的分类器预测结果;
[0047]图像预测单元:与所述数据采集处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态融合的艺术品分类方法,其特征在于:所述方法首先对艺术品的两种模态的数据进行预处理,然后分别获得文本模态的预测结果和图像的预测结果,并利用学习权重向量得到艺术品分类预测结果。2.根据权利要求1所述的基于多模态融合的艺术品分类方法,其特征在于:所述方法包括:S1、获取多模态艺术品的原始数据集,并分别对两种模态的数据进行预处理,获得归一化处理后的原始图片和词嵌入矩阵;S2、构建文本模态的艺术品分类模型,并利用词嵌入矩阵获得文本模态的分类器预测结果;S3、构建图像模态的艺术品分类模型,并利用归一化处理后的原始图片获得图像的分类器预测结果;S4、分别对文本模态的分类器预测结果、图像的分类器预测结果赋权值,进而获得艺术品分类预测结果。3.根据权利要求2所述的基于多模态融合的艺术品分类方法,其特征在于:所述步骤S1的操作包括:S11、对艺术品图像进行格式处理,得到归一化处理后的原始图片;S12、使用分词工具将艺术品阐释文本进行分词得到分割后的单词,然后将分割后的单词映射成词嵌入矩阵。4.根据权利要求2所述的基于多模态融合的艺术品分类方法,其特征在于:所述步骤S2中通过对文本卷积神经网络融入多层自注意力机制,构建文本模态的艺术品分类模型。5.根据权利要求4所述的基于多模态融合的艺术品分类方法,其特征在于:所述步骤S2的操作包括:S21、对所述词嵌入矩阵进行自注意力计算得到自注意力计算后的特征图;S22、使用三组大小不同的卷积核分别对自注意力计算后的特征图进行卷积操作,获得每组最终激活后的结果;S23、将每组最终激活后的结果分别进行自注意力计算得到特征图;S24、通过池化层提取特征图中每个通道的最大值进行降采样,获得文本模态的分类器预测结果。6.根据权利要求2所述的基于多模态融合的艺术品分类方法,其特征在于:所述步骤S3的操作包括:S31、将归一化处理后的原始图片分割为多个图片块,获得序列化后的图片块;S32、为序列化后的图片块加入位置编码信息得到加入位置信息的向量序列;S33、将加入位置信息的向量序列送入ViT模型...

【专利技术属性】
技术研发人员:蒋蕊司思
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1