基于图像和文本多模态数据的产品外观风格评价方法和系统技术方案

技术编号：28626169 阅读：13 留言：0更新日期：2021-05-28 16:22

本发明专利技术提供了一种基于图像和文本多模态数据的产品外观风格评价方法和系统，包括：图像美学风格模型，为多层卷积神经网络模型，彩色图像为输入、多维图像风格分类为输出；图像美学风格预测算法，进行预训练和迁移学习，预测产品图像的风格类型；语义情感分析模块，使用图像美学风格预测算法中的风格标签处理用户线上评论，计算用户反馈的产品风格倾向；多模态融合评价模块，融合图像美学风格预测算法输出的产品风格预测和语义情感分析输出的产品风格反馈，提供外观风格方面的产品评价结果。本方法融合了产品图像信息与用户反馈文本信息，基于数据建模与分析实现外观风格方面的产品评价，相比于传统的专家评定法具有更加客观、科学、准确的优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于图像和文本多模态数据的产品外观风格评价方法和系统
本专利技术涉及多模态数据
，具体地，涉及一种基于图像和文本多模态数据的产品外观风格评价方法和系统。
技术介绍
随着近年来逐渐提升的消费者综合要求和越来越多的商品种类，产品外观对消费者的购买决策的影响也越来越大。对许多日常消费品如收音机、吹风机等，产品外观正逐步成为影响产品成功的决定性因素。产品外观的美学风格对产品的综合外观十分重要，并且与所吸引的用户类型息息相关。美学风格一般是由特定词汇语义描绘的抽象审美概念，有一定的主观性和模糊性，其审美概念与特定词汇所传递给用户的美学联想可能存在差异，在实际中，常同时使用若干种不同的美学风格，以多个风格词汇和对应的多维美学风格值对产品进行描述。产品设计师所要传递的美学风格一般由产品图像来体现，而用户所实际体验的风格在用户反馈评论中常常有体现，两者的差异反映了产品风格呈现的成功度，越是成功的外观设计，其所要传递的美学风格与用户实际反馈的风格越是接近。图像美学风格分析基于图像处理与分析，通过对图像和美学风格标签之间的映射关系进行建模，发掘图像所呈现美学风格的规律，可用于对产品图像的美学风格预测。美学风格具有较大的普适性，例如适用于风景、人物等图像的风格也可用于形容产品外观，因此基于已有的大型图像美学风格分类数据集学习的图像与美学风格映射关系，经过较小的调整即可适用于产品图像。AVA(ALarge-ScaleDatabaseforAestheticVisualAnalysis)是一个包含超过250000张有标签图像的图...

【技术保护点】
1.一种基于图像和文本多模态数据的产品外观风格评价方法，其特征在于，包括构建图像美学风格模型，使用图像美学风格预测算法，进行语义情感分析和多模态融合评价；/n所述图像美学风格模型为多层卷积神经网络模型，以彩色图像为输入，以多维的图像风格分类为输出；/n所述图像美学风格预测算法用于进行预训练和迁移学习，预测产品图像的风格类型；/n所述语义情感分析包括：使用图像美学风格预测算法中的风格标签处理用户线上评论，计算用户反馈的产品风格倾向；/n所述多模态融合评价包括：融合图像美学风格预测算法输出的产品风格预测和语义情感分析输出的产品风格反馈，提供外观风格方面的产品评价结果。/n

【技术特征摘要】
1.一种基于图像和文本多模态数据的产品外观风格评价方法，其特征在于，包括构建图像美学风格模型，使用图像美学风格预测算法，进行语义情感分析和多模态融合评价；
所述图像美学风格模型为多层卷积神经网络模型，以彩色图像为输入，以多维的图像风格分类为输出；
所述图像美学风格预测算法用于进行预训练和迁移学习，预测产品图像的风格类型；
所述语义情感分析包括：使用图像美学风格预测算法中的风格标签处理用户线上评论，计算用户反馈的产品风格倾向；
所述多模态融合评价包括：融合图像美学风格预测算法输出的产品风格预测和语义情感分析输出的产品风格反馈，提供外观风格方面的产品评价结果。

2.根据权利要求1所述的基于图像和文本多模态数据的产品外观风格评价方法，其特征在于，所述图像美学风格模型包括依次连接的：
-输入层，输入为被缩放为224*224大小的彩色图像，输入维度为b*224*224*3，其中b为批大小batch_size；
-4个卷积层，卷积核大小为9*9，步长为1，卷积核数目为64，激活函数为ReLU函数；
-批归一化层；
-1个池化层，采用最大池化，池化大小2*2；
-3个卷积层，卷积核大小为7*7，步长为1，卷积核数目为64，激活函数为ReLU函数；
-1个池化层，采用最大池化，池化大小2*2；
-3个卷积层，卷积核大小为5*5，步长为1，卷积核数目为128，激活函数为ReLU函数；
-Dropout层，dropout概率为0.1；
-批归一化层；
-1个池化层，采用最大池化，池化大小2*2
-3个卷积层，卷积核大小为3*3，步长为1，卷积核数目为128，激活函数为ReLU函数；
-1个池化层，采用最大池化，池化大小2*2；
-Flatten层，将b*14*14*128维的特征图展为一维b*14*14*128长度的向量；
-全连接层，输出风格分类结果，标签数为14，分别对应14种风格标签，激活函数为Softmax。

3.根据权利要求1所述的基于图像和文本多模态数据的产品外观风格评价方法，其特征在于，所述图像美学风格模型的损失函数为最小化交叉熵损失函数，使用Adam优化器进行权重更新，学习率设为0.0001。

4.根据权利要求1所述的基于图像和文本多模态数据的产品外观风格评价方法，其特征在于，所述图像美学风格预测算法采用迁移学习策略，首先在大型图像美学风格分类数据集AVA上使用数据集的14种风格标签进行预训练，随后在特定产品领域下14种风格标签标注的小型产品图像风格数据集上进行微调，在无标签的测试集上进行测试；
测试图像的图像美学风格模型预测输出为该图像的风格预测结果，为14维向量P＝(P1,P2…P14)，P满足：
∑iPi＝1
其中，Pi表示该图像属于第i种风格的概率。

5.根据权利要求1所述的基于图像和文本多模态数据的产品外观风格评价方法，其特征在于，所述语义情感分析模块，使用图像美学风格预测算法中的14个风格标签处理线上用户评论，使用WordNet语义词典的同义查找方法lemma_names分别找到14个风格标签的同义词，将各个风格标签扩充为风格词集，包括以下步骤：
步骤1：对第i个风格标签词，分别在WordNet中查找该词对应的语义集合Synsetsi；
步骤2：对Synsetsi中的第j个语义synsetij，使用lemma_names方法找到其同义词集合lemij；
步骤3：将第i个风格标签词对应的所有同义词集合lemij组成第i个风格词集Seti：
Seti＝∪jlemij。

6.根据权利要求1所述的基于图像和文本多模态数据的产品外观风格评价方法，其特征在于，所述语义情感分析包括：将...

【专利技术属性】
技术研发人员：朱思羽，戚进，胡洁，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人