一种基于强化学习的情绪化图像描述方法及系统技术方案

技术编号：33849412 阅读：7 留言：0更新日期：2022-06-18 10:35

本发明专利技术公开了一种基于强化学习的情绪化图像描述方法，涉及图像处理与模式识别技术领域，在大规模语料库基础上构建情绪词嵌入库；构建图像情绪识别模型；使用图像情绪分析数据集训练图像情绪识别模型；构建图像事实性描述模型；使用图像描述数据集训练图像事实性描述模型；构建情绪化图像描述初始化模块，利用情绪词嵌入库、图像情绪识别模型输出的图像情绪类别以及图像事实性描述模型输出的图像事实性描述，生成初始的情绪化图像描述；构建基于强化学习的微调模块，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。本发明专利技术还公开了一种基于强化学习的情绪化图像描述系统，本发明专利技术可使得各类复杂场景的图像描述更加生动，富有情感。富有情感。富有情感。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的情绪化图像描述方法及系统

[0001]本专利技术涉及图像处理与模式识别
，特别是一种基于强化学习的情绪化图像描述方法及系统。

技术介绍

[0002]如今信息社会中充斥着图像数据，如日常生活照、医疗图像和遥感卫星图像，人们的信息交互方式已经从传统的语音、文字转化到多模态式信息交互，图像信息交互是未来“元宇宙”的重要核心，但对于视觉障碍以及认知不足者而言无法从图像中准确获取信息，包括图像语义信息、情感信息，严重影响这类群体在未来信息交互的通畅性和信息获取的便捷性。
[0003]信息交互中，情感是重要的一环，对于交互的双方而言，都需要进行情感上的互动以获取对方情绪进而完成更好的信息交流。对于视觉障碍以及认知不足者而言，通过一定程度的事实性的图像描述可以了解图像的描述对象。由于事实性描述只是单纯叙述图像所包含的对象，缺乏对图像中情绪与色彩的表达，使得人们无法获取图片所传递的情感。因此情绪化的图像描述成为图像描述中最具挑战性的一个难题。图像的色彩通过RGB得到的像素值输入到计算机以表示，但是人们对具体的数值不具有任何感受与联想，所以直接通过像素值大小的提取无法让视觉障碍以及认知不足者直观地感受图像所包含的各类信息，并且图像中所包含的色彩信息多种多样，并且存在一定的图像意境，同时图像所包含的情绪千变万化，包括愉悦(Amusement)、狂怒(Anger)、惊奇(Awe)、接受(Contentment)、憎恨(Disgust)、狂喜(Excitement)、恐惧(Fear)、悲痛(Sadness)8...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的情绪化图像描述方法，其特征在于，包括以下步骤：步骤一、在大规模语料库基础上构建情绪词嵌入库；步骤二、构建图像情绪识别模型；步骤三、使用图像情绪分析数据集训练图像情绪识别模型；步骤四、构建一种用于生成图像事实性描述的基于注意力机制的图像事实性描述模型，图像事实性描述模型包括依次顺序连接的图像事实性描述预处理模块、图像特征编码器和特征
‑
文本解码器；步骤五、使用图像描述数据集训练图像事实性描述模型；步骤六、构建情绪化图像描述初始化模块，情绪化图像描述初始化模块根据训练好的图像情绪识别模型输出的图像情绪类别，从情绪词嵌入库中选取与图像情绪类别对应的情绪词，并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中，生成初始的情绪化图像描述；步骤七、构建基于强化学习的微调模块，微调模块用于对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。2.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤七中，基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元；其中，语句重建生成器作为强化学习系统中的智能体，语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境；语句重建生成器与外部环境进行不断地交互，获取外部环境的奖励信息，学习从环境状态到行为动作的映射，来优化调整行为动作，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。3.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤七中，基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元，微调模块用于对初始的情绪化图像描述进行微调的具体方法如下：步骤701、语句重建生成器根据第t
‑
1时刻的环境状态以及第t
‑
1时刻的奖励，通过选词器从情绪词嵌入库中选择语义相近的单词，执行选词的动作，并将筛选出的单词加入第t
‑
1时刻生成的语句S
t
‑1中，生成第t时刻的语句S
t
；其中，第0时刻生成的语句S0为语句生成起始符，第t
‑
1时刻的环境状态即为第t
‑
1时刻生成的语句S
t
‑1，第t
‑
1时刻的奖励R
t
‑1即为第t
‑
1时刻所选单词得分，t为时刻；步骤702、语句存储单元存储更新后的第t时刻的语句S
t
；语句抽样单元基于采样搜索算法对更新后的第t时刻的语句S
t
进行回滚，生成N个语句，N的取值为3、4或5；语句评估单元首先对语句抽样单元生成的N个语句分别使用情绪鉴别器、语法搭配鉴别器、语义鉴别器进行评估打分，得到N个情绪奖励得分、语法搭配奖励得分、语义奖励得分，然后采取加权平均的方法得到综合奖励得分，最后将综合奖励得分输入到选词评估单元；选词评估单元输出所选单词得分，作为外部环境向语句重建生成器反馈的奖励R
t
；步骤703、迭代步骤701至步骤702，语句重建生成器与外部环境不断地进行交互，直至取得语句重建的最大奖励，生成最终的情绪化图像描述。4.根据权利要求3所述的一种基于强化学习的情绪化图像描述方法，其特征在于，所述
语句抽样单元的采样搜索算法采用多项式采样或蒙特卡洛抽样方法。5.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤一中，构建情绪词嵌入库的具体方法如下：步骤101、利用NLTK工具获取目标检测和图像描述数据集中的名词、动词，生成语义词库，并计算其中每个语义词的词向量；步骤102、从大规模语料库LSCC中筛选出情绪词，生成情绪词库，并计算每个情绪词的情绪词向量；将语义词库中的每个语义词对应的情绪词分为IAPS定义的8个类别：愉悦、狂怒、惊奇、接受、憎恨、狂喜、恐惧、悲痛；步骤103、从情绪词库中筛选出与语义词相对应的不同情绪类别的情绪词组，构建情绪词嵌入库。6.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，图像情绪识别模型包括图像情绪识别预处理模块、人脸情绪特征提取模块、图像主题色彩特征提取模块、图像情绪特征提取模块、特征融合层、全连接层以及分类层；所述图像情绪识别预处理模块包括人脸检测单元、人脸图像归一化处理单元和图像尺寸归一化处理单元；其中，所述人脸检测单元，利用预先训练的人脸检测网络，检测出输入的图像中人脸区域，并对不同的人脸区域进行标号；所述人脸图像归一化处理单元，用于对检测出的每个人脸区域进行裁剪、对齐和尺寸归一化；所述图像尺寸归一化处理单元，用于对输入的图像进行尺寸归一化；所述人脸情绪特征提取模块，用于提取裁剪、对齐和尺寸归一化后的人脸图像中每一个人的面部情绪特征；所述图像主题色彩特征提取模块，用于提取输入的图像的主题色彩特征；所述图像情绪特征提取模块，用于提取图像尺寸归一化处理单元输出的尺寸归一化后的图像的情绪特征；所述特征融合层，用于分别对人脸情绪特征提取模块输出的面部情绪特征、图像主题色彩特征提取模块输出的主题色彩特征以及图像情绪特征提取模块输出的情绪特征进行融合，得到融合后的情绪特征向量；所述全连接层，用于全连接特征融合层与分类层；所述分类层，用于输出图像所属的情绪类别。7.根据权利要求6所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤二中，使用图像主题色彩特征提取模块提取输入的图像的主题色彩特征的具体方法如下：步骤1、使用微元法切割RGB空间，形成一个个独立的立体方块；步骤2、将图像的RGB格式像素散点放入切割...

【专利技术属性】
技术研发人员：卢官明，陈晨，卢峻禾，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人