一种基于强化学习的情绪化图像描述方法及系统技术方案

技术编号:33849412 阅读:7 留言:0更新日期:2022-06-18 10:35
本发明专利技术公开了一种基于强化学习的情绪化图像描述方法,涉及图像处理与模式识别技术领域,在大规模语料库基础上构建情绪词嵌入库;构建图像情绪识别模型;使用图像情绪分析数据集训练图像情绪识别模型;构建图像事实性描述模型;使用图像描述数据集训练图像事实性描述模型;构建情绪化图像描述初始化模块,利用情绪词嵌入库、图像情绪识别模型输出的图像情绪类别以及图像事实性描述模型输出的图像事实性描述,生成初始的情绪化图像描述;构建基于强化学习的微调模块,对初始的情绪化图像描述进行微调,生成最终的情绪化图像描述。本发明专利技术还公开了一种基于强化学习的情绪化图像描述系统,本发明专利技术可使得各类复杂场景的图像描述更加生动,富有情感。富有情感。富有情感。

【技术实现步骤摘要】
一种基于强化学习的情绪化图像描述方法及系统


[0001]本专利技术涉及图像处理与模式识别
,特别是一种基于强化学习的情绪化图像描述方法及系统。

技术介绍

[0002]如今信息社会中充斥着图像数据,如日常生活照、医疗图像和遥感卫星图像,人们的信息交互方式已经从传统的语音、文字转化到多模态式信息交互,图像信息交互是未来“元宇宙”的重要核心,但对于视觉障碍以及认知不足者而言无法从图像中准确获取信息,包括图像语义信息、情感信息,严重影响这类群体在未来信息交互的通畅性和信息获取的便捷性。
[0003]信息交互中,情感是重要的一环,对于交互的双方而言,都需要进行情感上的互动以获取对方情绪进而完成更好的信息交流。对于视觉障碍以及认知不足者而言,通过一定程度的事实性的图像描述可以了解图像的描述对象。由于事实性描述只是单纯叙述图像所包含的对象,缺乏对图像中情绪与色彩的表达,使得人们无法获取图片所传递的情感。因此情绪化的图像描述成为图像描述中最具挑战性的一个难题。图像的色彩通过RGB得到的像素值输入到计算机以表示,但是人们对具体的数值不具有任何感受与联想,所以直接通过像素值大小的提取无法让视觉障碍以及认知不足者直观地感受图像所包含的各类信息,并且图像中所包含的色彩信息多种多样,并且存在一定的图像意境,同时图像所包含的情绪千变万化,包括愉悦(Amusement)、狂怒(Anger)、惊奇(Awe)、接受(Contentment)、憎恨(Disgust)、狂喜(Excitement)、恐惧(Fear)、悲痛(Sadness)8类情绪。因此,根据图像情绪识别模型的情绪分析结果与生成的图像事实性描述语义,从情绪词嵌入库中选择与图像情绪类别对应的情绪词,生成初始的情绪化图像描述;最后,构建基于强化学习的微调模块,该模块使用强化学习方法对生成的初始情绪化图像描述进行微调,生成最终的情绪化图像描述,使语义更加通顺丰富。
[0004]目前,对图像的描述研究多集中于单一性的事实性图像描述。虽然生成的图像描述句法简单,且模型的可解释性强,但由于图像特征于图像文本描述间非线性映射关系简单,导致其抽象性不高,表述能力有限,并且生成的描述较为生硬,不具有情感色彩,无法通过生成的文本更细致描述图像的内容;与此同时,单一性的事实性图像描述对于图像中物体及其交互关系的描述匮乏;再者,事实性图像描述缺乏对图像色彩所传递情绪的描述,无法完全描述出图像所表现出的色彩氛围信息。
[0005]中国专利申请“一种基于深度注意力机制的图像描述生成方法”(专利申请号201711073398.1,公开号CN108052512B),构建深度长短期记忆网络模型,通过在长短期记忆网络模型的单元之间添加注意力机制函数,并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练,得到深度长短期记忆网络模型;图像描述生成步骤,将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型,生成与图像对应的描述。该方法存在的问题是使用长短期记忆
网络模型直接对待生成描述的图像进行编码并解码处理得到图像描述,没有做到图像内部特征的充分提取,且无基于图像主题色特征的情绪提取,这可能会影响最后的图像情绪识别的语义丰富度,且无情感支撑。

技术实现思路

[0006]本专利技术所要解决的技术问题是克服现有技术的不足而提供一种基于强化学习的情绪化图像描述方法及系统,一方面提取训练集图像主题色彩特征先验,与训练集图像一并输入图像情绪识别模型,优化网络模型参数,并结合多特征信息融合的图像事实性描述模型,生成初始情绪化图像描述;另一方面通过强化学习微调初始情绪化图像描述,使得语句更加通顺,且富有情感色彩;进一步发挥图像情绪识别和图像语义描述间的互补作用,获得情绪化图像描述的同时,提升图像描述的准确性和鲁棒性。
[0007]本专利技术为解决上述技术问题采用以下技术方案:
[0008]根据本专利技术提出的一种基于强化学习的情绪化图像描述方法,包括以下步骤:
[0009]步骤一、在大规模语料库基础上构建情绪词嵌入库;
[0010]步骤二、构建图像情绪识别模型;
[0011]步骤三、使用图像情绪分析数据集训练图像情绪识别模型;
[0012]步骤四、构建一种用于生成图像事实性描述的基于注意力机制的图像事实性描述模型,图像事实性描述模型包括依次顺序连接的图像事实性描述预处理模块、图像特征编码器和特征

文本解码器;
[0013]步骤五、使用图像描述数据集训练图像事实性描述模型;
[0014]步骤六、构建情绪化图像描述初始化模块,情绪化图像描述初始化模块根据训练好的图像情绪识别模型输出的图像情绪类别,从情绪词嵌入库中选取与图像情绪类别对应的情绪词,并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中,生成初始的情绪化图像描述;
[0015]步骤七、构建基于强化学习的微调模块,微调模块用于对初始的情绪化图像描述进行微调,生成最终的情绪化图像描述。
[0016]作为本专利技术所述的一种基于强化学习的情绪化图像描述方法进一步优化方案,步骤七中,基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元;其中,语句重建生成器作为强化学习系统中的智能体,语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境;语句重建生成器与外部环境进行不断地交互,获取外部环境的奖励信息,学习从环境状态到行为动作的映射,来优化调整行为动作,对初始的情绪化图像描述进行微调,生成最终的情绪化图像描述。
[0017]作为本专利技术所述的一种基于强化学习的情绪化图像描述方法进一步优化方案,步骤七中,基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元,微调模块用于对初始的情绪化图像描述进行微调的具体方法如下:
[0018]步骤701、语句重建生成器根据第t

1时刻的环境状态以及第t

1时刻的奖励,通过选词器从情绪词嵌入库中选择语义相近的单词,执行选词的动作,并将筛选出的单词加入
第t

1时刻生成的语句S
t
‑1中,生成第t时刻的语句S
t
;其中,第0时刻生成的语句S0为语句生成起始符,第t

1时刻的环境状态即为第t

1时刻生成的语句S
t
‑1,第t

1时刻的奖励R
t
‑1即为第t

1时刻所选单词得分,t为时刻;
[0019]步骤702、语句存储单元存储更新后的第t时刻的语句S
t
;语句抽样单元基于采样搜索算法对更新后的第t时刻的语句S
t
进行回滚,生成N个语句,N的取值为3、4或5;语句评估单元首先对语句抽样单元生成的N个语句分别使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的情绪化图像描述方法,其特征在于,包括以下步骤:步骤一、在大规模语料库基础上构建情绪词嵌入库;步骤二、构建图像情绪识别模型;步骤三、使用图像情绪分析数据集训练图像情绪识别模型;步骤四、构建一种用于生成图像事实性描述的基于注意力机制的图像事实性描述模型,图像事实性描述模型包括依次顺序连接的图像事实性描述预处理模块、图像特征编码器和特征

文本解码器;步骤五、使用图像描述数据集训练图像事实性描述模型;步骤六、构建情绪化图像描述初始化模块,情绪化图像描述初始化模块根据训练好的图像情绪识别模型输出的图像情绪类别,从情绪词嵌入库中选取与图像情绪类别对应的情绪词,并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中,生成初始的情绪化图像描述;步骤七、构建基于强化学习的微调模块,微调模块用于对初始的情绪化图像描述进行微调,生成最终的情绪化图像描述。2.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法,其特征在于,步骤七中,基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元;其中,语句重建生成器作为强化学习系统中的智能体,语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境;语句重建生成器与外部环境进行不断地交互,获取外部环境的奖励信息,学习从环境状态到行为动作的映射,来优化调整行为动作,对初始的情绪化图像描述进行微调,生成最终的情绪化图像描述。3.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法,其特征在于,步骤七中,基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元,微调模块用于对初始的情绪化图像描述进行微调的具体方法如下:步骤701、语句重建生成器根据第t

1时刻的环境状态以及第t

1时刻的奖励,通过选词器从情绪词嵌入库中选择语义相近的单词,执行选词的动作,并将筛选出的单词加入第t

1时刻生成的语句S
t
‑1中,生成第t时刻的语句S
t
;其中,第0时刻生成的语句S0为语句生成起始符,第t

1时刻的环境状态即为第t

1时刻生成的语句S
t
‑1,第t

1时刻的奖励R
t
‑1即为第t

1时刻所选单词得分,t为时刻;步骤702、语句存储单元存储更新后的第t时刻的语句S
t
;语句抽样单元基于采样搜索算法对更新后的第t时刻的语句S
t
进行回滚,生成N个语句,N的取值为3、4或5;语句评估单元首先对语句抽样单元生成的N个语句分别使用情绪鉴别器、语法搭配鉴别器、语义鉴别器进行评估打分,得到N个情绪奖励得分、语法搭配奖励得分、语义奖励得分,然后采取加权平均的方法得到综合奖励得分,最后将综合奖励得分输入到选词评估单元;选词评估单元输出所选单词得分,作为外部环境向语句重建生成器反馈的奖励R
t
;步骤703、迭代步骤701至步骤702,语句重建生成器与外部环境不断地进行交互,直至取得语句重建的最大奖励,生成最终的情绪化图像描述。4.根据权利要求3所述的一种基于强化学习的情绪化图像描述方法,其特征在于,所述
语句抽样单元的采样搜索算法采用多项式采样或蒙特卡洛抽样方法。5.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法,其特征在于,步骤一中,构建情绪词嵌入库的具体方法如下:步骤101、利用NLTK工具获取目标检测和图像描述数据集中的名词、动词,生成语义词库,并计算其中每个语义词的词向量;步骤102、从大规模语料库LSCC中筛选出情绪词,生成情绪词库,并计算每个情绪词的情绪词向量;将语义词库中的每个语义词对应的情绪词分为IAPS定义的8个类别:愉悦、狂怒、惊奇、接受、憎恨、狂喜、恐惧、悲痛;步骤103、从情绪词库中筛选出与语义词相对应的不同情绪类别的情绪词组,构建情绪词嵌入库。6.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法,其特征在于,图像情绪识别模型包括图像情绪识别预处理模块、人脸情绪特征提取模块、图像主题色彩特征提取模块、图像情绪特征提取模块、特征融合层、全连接层以及分类层;所述图像情绪识别预处理模块包括人脸检测单元、人脸图像归一化处理单元和图像尺寸归一化处理单元;其中,所述人脸检测单元,利用预先训练的人脸检测网络,检测出输入的图像中人脸区域,并对不同的人脸区域进行标号;所述人脸图像归一化处理单元,用于对检测出的每个人脸区域进行裁剪、对齐和尺寸归一化;所述图像尺寸归一化处理单元,用于对输入的图像进行尺寸归一化;所述人脸情绪特征提取模块,用于提取裁剪、对齐和尺寸归一化后的人脸图像中每一个人的面部情绪特征;所述图像主题色彩特征提取模块,用于提取输入的图像的主题色彩特征;所述图像情绪特征提取模块,用于提取图像尺寸归一化处理单元输出的尺寸归一化后的图像的情绪特征;所述特征融合层,用于分别对人脸情绪特征提取模块输出的面部情绪特征、图像主题色彩特征提取模块输出的主题色彩特征以及图像情绪特征提取模块输出的情绪特征进行融合,得到融合后的情绪特征向量;所述全连接层,用于全连接特征融合层与分类层;所述分类层,用于输出图像所属的情绪类别。7.根据权利要求6所述的一种基于强化学习的情绪化图像描述方法,其特征在于,步骤二中,使用图像主题色彩特征提取模块提取输入的图像的主题色彩特征的具体方法如下:步骤1、使用微元法切割RGB空间,形成一个个独立的立体方块;步骤2、将图像的RGB格式像素散点放入切割...

【专利技术属性】
技术研发人员:卢官明陈晨卢峻禾
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1