一种基于情感分析的图像滤镜生成方法技术

技术编号:39136000 阅读:14 留言:0更新日期:2023-10-23 14:52
本发明专利技术提供的一种基于情感分析的图像滤镜生成方法,引入了视觉上情绪分析的先验知识,采用预训练的BERT模型和VAD情感词典,有效提取文本中的情感,提升模型对文本情感的感知能力。通过可学习的分组编码,将内容图像编码和文本编码特征融合成跨模态序列,赋予模型跨模态感知能力,提高文本控制下图像表现出文本情感的能力。设计情感向量损失函数和情感分类损失函数,全面展示客观和主观情感,使模型准确地将文本情感反映在生成图像中。在情感展现程度、内容保留程度、图像生成质量和条件一致性等方面取得显著性能提升。性等方面取得显著性能提升。性等方面取得显著性能提升。

【技术实现步骤摘要】
一种基于情感分析的图像滤镜生成方法


[0001]本专利技术涉及互联网
,尤其涉及一种基于情感分析的图像滤镜生成方法。

技术介绍

[0002]随着人工智能技术的迅猛发展,人工智能生成内容(AIGC)作为一种创新的技术应用,逐渐引起了广泛的关注和研究。本专利技术涉及一种基于人工智能技术的内容生成方法,其可自动生成各种形式的内容,例如文本、图像、音频等。这些内容是由计算机程序在无需人类手动创作的情况下完成的。本方法通过利用大规模数据集和深度学习模型,如神经网络和语言模型,实现内容的自动生成。由于传统图像创作对于设计者的绘图和美术技术功底要求较高,并且耗时耗费资源,因此本方法能够更加高效地创作艺术图像,满足全民创作的目标,并受到人们的广泛关注与喜爱。
[0003]情感分析,也被称为意见挖掘,是一种自然语言处理技术,用于识别和分析文本中所表达的情感倾向或情绪。该技术旨在从文本数据中自动识别出正面、负面或中性的情感,帮助理解人们在社交媒体、产品评论、新闻文章等各种文本中的情感和情绪态度。在人工智能领域中,研究者们希望让机器也能具有情感,最早在1997年,麻省理工媒体实验室就提出了情感计算的概念,在之后的研究中,情感计算是自然语言处理中的一个重要领域,其目的是让计算机能够自动识别和理解文本中蕴含的情感信息,赋予机器识别,理解,表达情感的能力。
[0004]情感分析可以应用于多个领域,如社交媒体监测、品牌声誉管理、市场营销、舆情分析、产品推广和客户服务等。它可以帮助企业了解用户对其产品或服务的满意度,发现潜在的用户需求和痛点,提高客户满意度和忠诚度。情感分析的实现通常涉及使用机器学习和深度学习技术,构建情感分类模型,对文本数据进行分类,并判断其情感倾向。常见的情感分析方法包括基于规则的方法、情感词典方法和机器学习方法,其中深度学习方法在处理大规模文本数据时表现出色。但是,情感分析也面临一些挑战,如语义理解、文本歧义性和文化差异等,因此仍在不断发展和完善。
[0005]在当前社会中,人们在社交网络上分享对某事件或活动的观点和体验,文本成为直接表达意见和与其他用户建立情感联系的媒介。例如:“我今天考试没考好,心情糟透了”或者“我即将搭火车去旅游,真是个令人期待的旅程”。此时,用户的文本描述可能包含观点和意向等情感词汇,希望通过包含情感的语句进行相应情感的风格转换。这对先前的模型构成了巨大挑战,因为它们无法提取文本中的情感信息,导致难以理解其中的情感,并且很难生成与文本表达的情感相对应的风格和纹理。因此,本专利技术提出了一种基于情感分析的图像滤镜生成方法。该方法允许用户输入情感文本和内容图像,模型从文本中提取情感,并对内容图像进行相应的情感迁移,最终生成能够体现情感并保留内容的新图像。
[0006]如图1所示,现有技术之一的“基于单一文本条件的图像风格迁移”文章中,引入了CLIP跨模态大模型以理解文本中的情感并投射到生成图中:
[0007]首先,为了解决文本和图像对应的问题,本专利技术引入了CLIP跨模态大模型,并设计
了CLIP损失。通过计算文本间的CLIP距离,指导最终生成图像的风格迁移。其次,为了更好地将文本中的情感投影到生成图像中,本专利技术采取了对生成图像进行随机切割的方法,取多个小图像块进行CLIP损失的计算。最后,本专利技术提出了一种快速进行迁移的风格迁移方法,从而使得模型可以适用于任何内容图像。
[0008]如图2所示,现有技术之二的“"语言驱动的艺术风格迁移”文章设计了鉴别器和对比学习损失,较好的保持了生成图的内容与内容图一致:
[0009]首先,本专利技术设计了结构重建模块,用于确保生成图像的内容与内容图像一致。其次,为了建立文本与内容图像之间的视觉语义联系,本专利技术引入了逐块风格鉴别器。通过将生成图像进行随机切割,并输入到风格鉴别器中,以判断文本与内容图像是否相匹配。最后,本专利技术提出了对比学习模块。针对不同的风格指令和内容图像,通过计算参考风格图像之间的余弦相似性来定义相对匹配关系。在此过程中,即使成对的样式指令不同,仍需对齐样式特征以一定程度上匹配。
[0010]专利技术人在研究的过程中发现:对于“基于单一文本条件的图像风格迁移”、“"语言驱动的艺术风格迁移”现有技术中:
[0011]1、利用CLIP跨模态大模型的先验知识,学习文本中的情感,并将情感投射到生成图像中;
[0012]2、利用鉴别器和对比学习的方法,学习内容图像的内容结构和风格图像的风格纹理,并在生成图像中较好地表现;
[0013]由于上述技术问题导致于现有技术中存在以下缺点:
[0014]1、模型的生成图更加关注文本的内容,导致对用户输入的内容图像的内容保留程度较差;
[0015]2、CLIP模型不能完全反映文本的情感,并且,模型缺乏对文本情感的提取和理解,导致文本中的情感无法正确地反映到生成图像中。

技术实现思路

[0016]为了解决上述技术问题,本专利技术提供了一种基于情感分析的图像滤镜生成方法。该方法引入了视觉上情绪分析的先验知识,利用预训练的BERT模型将文本编码为词向量,并进一步获取VAD情感词典中的情感嵌入,以学习每个词的固有情感属性,从而提升了模型对文本中情感的感知能力。此外,本专利技术还设计了具有分组Transformer架构的图像滤镜模型,将文本编码和图像编码进行融合。为了全面可视化客观和主观的情感,本专利技术还设计了新的损失函数。通过这些创新,使得模型更加准确地将文本中的情感展现到生成图像中。
[0017]本专利技术提供了一种基于情感分析的图像滤镜生成方法,在模型训练时,该方法包括:
[0018]步骤一、从ArtEmis数据集中随机选择一个文本描述作为锚点文本。并且,取出锚点文本对应的风格图;
[0019]步骤二、根据锚点文本在米克尔情感轮(Mikels emotion wheel)中的位置对其进行分类,与锚点文本在同一区域的文本描述中选择一个文本为正例文本,相邻区域的文本描述中选择一个文本为相关文本,相反区域的文本描述中选择一个文本为负例文本。并且,取出正例文本,相关文本,负例文本对应的风格图;
[0020]步骤三、使用预训练的BERT将锚点文本编码为词向量,并进一步在VAD词典中获取情感向量,以揭示每个词固有的情感属性。并将词向量和情感向量进行投射形成基于锚点文本的文本词编码;
[0021]步骤四、将内容图片输入图像编码器获得图像块编码;
[0022]步骤五、将图像块向量,基于锚点文本的文本词编码拼接为一个序列,并给两种不同模态的编码分别加上模态类型编码,得到基于锚点文本的特征融合跨模态编码序列;
[0023]步骤六、将基于锚点文本的跨模态编码序列输入到用于特征融合的分组Transformer中,对跨模态序列的特征进行融合,得到基于锚点文本的特征融合跨模态序列;
[0024]步骤七、将基于锚点文本的特征融合跨模态序列拆分,把其中的图像块编码输入到解码器中,得到基于锚点文本的生成图;
[0025]步骤八、将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于情感分析的图像滤镜生成方法,其特征在于采用分组Transformer架构,并设计了情感向量损失和情感分类损失,以更好地学习文本中的情感信息。该方法包括:步骤一、从数据集中随机选择一个文本描述作为锚点文本。并且,取出锚点文本对应的风格图;步骤二、根据锚点文本在米克尔情感轮(Mikels emotion wheel)中的位置对其进行分类,与锚点文本在同一区域的文本描述中选择一个文本为正例文本,相邻区域的文本描述中选择一个文本为相关文本,相反区域的文本描述中选择一个文本为负例文本。并且,取出正例文本,相关文本,负例文本对应的风格图;步骤三、使用预训练的BERT将锚点文本编码为词向量,并进一步在VAD词典中获取情感向量,以揭示每个词固有的情感属性。并将词向量和情感向量进行投射形成基于锚点文本的文本词编码;步骤四、将内容图片输入图像编码器获得图像块编码;步骤五、将图像块向量,基于锚点文本的文本词编码拼接为一个序列,并给两种不同模态的编码分别加上模态类型编码,得到基于锚点文本的特征融合跨模态编码序列;步骤六、将基于锚点文本的跨模态编码序列输入到用于特征融合的分组Transformer中,对跨模态序列的特征进行融合,得到基于锚点文本的特征融合跨模态序列;步骤七、将基于锚点文本的特征融合跨模态序列拆分,把其中的图像块编码输入到解码器中,得到基于锚点文本的生成图;步骤八、将步骤三中的锚点文本分别替换为正例文本、相关文本、负例文本,重复步骤五、步骤六和步骤七,得到基于正例文本、相关文本、负例文本的生成图;步骤九、将所有的生成图输入到情感提取器提取对应图片的情感向量,通过对比学习,计算情感向量损失函数。再将生成图片输入情感分类器,并且使用Kullback

Leibler(KL)损失来计算情感分类损失函数;步骤十、将生成图片与内容图像进行计算的到内容损失,将生成图片与风格图像进行计算的到风格损失,将生成图片与输入的文本进行计算得到条件损失,以上损失进行加权求和,得到图像可视化损失函数;步骤十一、将情感向量损失函数、情感分类损失函数和图像可视化损失函数进行加权求和,得到整体损失函数,使用反向传播算法(Back Propagation,BP)计算梯度,并使用Adam优化器优化整体损失函数更新模型各层权重。2.如权利要求1所述方法,其特征在于,所述步骤六中,使用分组Transformer中的包含若干个计算单元,每个计算单元计算过程如下:若干个计算单元,每个计算单元计算过程如下:其中,f
tex
和f
img
分别是文本编码和图像编码。和为模态类型编码。并且,分组transformer的初始输入表示为:
其中,分组transformer包括L个标准的transformer模块,每个模块包含一个多头注意力层(MSA),一个MLP层和两个残差连接,LN表示层归一化。力层(MSA),一个MLP层和两个残差连接,LN表示层归一化。进一步的,所述步骤九中,情感提取器提取图像VGG网络的多级特征,对这些特征进行Gram矩阵操作,由此定义情感向量,如下:其中,代表Gram矩阵中第j个特征级的第i个上三角元素。因此,情绪向量之间的距离可以公式表示为:F
sw
(V
i
,V
j
)=||V
i

V
j
||/F

【专利技术属性】
技术研发人员:李思施柏鑫张沛瑄翁书晨常征
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1