一种用于体现用户意图和风格的个性化图像描述方法技术

技术编号:32234327 阅读:38 留言:0更新日期:2022-02-09 17:38
本发明专利技术公开了一种用于体现用户意图和风格的个性化图像描述方法,包括:构建一个包含三类抽象节点的空间关系图;利用图注意力机制获取用户所希望描述的内容和顺序,并通过添加控制阀门调节图流动的方向,利用图语义注意力机制结合上下文的关联度使语句更为流畅;加入动态访问节点,记录所访问过的节点,加入没有访问过的节点,并擦除废词,使描述更具多样性且不遗漏或者重复描述;在解码器中加入基于用户画像的字幕风格因子,输出符合用户期望的风格化语句。本发明专利技术可以控制图像描述生成中的不同细节,使描述语句更贴合图像且更流畅,生成的描述具有特定风格,从而实现生成结果的个性化和多样性。化和多样性。化和多样性。

【技术实现步骤摘要】
一种用于体现用户意图和风格的个性化图像描述方法


[0001]本专利技术涉及图像描述的
,尤其涉及一种用于体现用户意图和风格的个性化图像描述方法。

技术介绍

[0002]图像描述(Image Captioning)是一个结合计算机视觉和自然语言处理的跨领域任务,其计算涉及自然文本的语义提取、图像目标的检测与特征提取、以及目标之间关系的识别与推理等,最终将图像识别的结果表述为一个自然语句;深度学习技术的应用使计算机描述图像场景的能力得到了大幅提升,在某些评估指标上甚至超过了人类。然而,若要让机器按照用户的意愿和个性去描述一个场景,就必须使它们拥有感知用户兴趣和个性的能力。
[0003]遗憾的是,现有的图像描述模型虽然可以生成较为流畅的描述语句,但是存在与用户交互性差、多样性低等问题。具体体现在以下两个方面:大多数图像描述模型仅机械地生成描述图像场景整体内容的句子,并没有考虑用户感兴趣的内容或者期望描述的详细程度;这种生成模式倾向于使用常见的高频词来表达生成较为“简单安全”的句子,容易造成句子缺乏多样性,无法体现用户的个性特征和用语习惯本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于体现用户意图和风格的个性化图像描述方法,其特征在于,包括:构建一个包含三类抽象节点的空间关系图,所述三类抽象节点分别代表目标、特征、目标之间的关系,每个抽象节点在图中有具体区域的定位;利用图注意力机制获取用户所希望描述的内容和顺序,并通过添加控制阀门调节图流动的方向,利用图语义注意力机制结合上下文的关联度使语句更为流畅;加入动态访问节点,记录所访问过的节点,加入没有访问过的节点,并擦除废词,使描述更具多样性且不遗漏或者重复描述;在解码器中加入基于用户画像的字幕风格因子,输出符合用户期望的风格化语句。2.如权利要求1所述的用于体现用户意图和风格的个性化图像描述方法,其特征在于:构建所述包含三类抽象节点的空间关系图包括,以输入图片I为基础,通过在VisualGenome数据集上运用图像卷积和目标检测进行图像预处理,获得场景图像中的目标、目标的特征,以及目标之间的空间关系,以此生成抽象空间关系图。3.如权利要求2所述的用于体现用户意图和风格的个性化图像描述方法,其特征在于:还包括,构建角色感知图编码器,在所述编码器中嵌入了一个角色感知节点体现用户意图,并使用一个多关系图卷积网络进行上下文编码,所述角色感知节点的编码方法为:对第i个节点,将其目标节点和特征节点均初始化为其对应图像区域的视觉特征v
i
,将关系节点的特征初始化为两相关目标的并集区域的图像特征,使用角色嵌入进一步增强每个节点,获得如下列公式所示的嵌入了角色感知的节点个节点,获得如下列公式所示的嵌入了角色感知的节点其中,为角色嵌入矩阵,d为特征维度,W
r
[k]为W
r
的第k行,pos[i]为一种位置嵌入,用于区分同一目标的同属性节点,r表示关系节点,o表示目标节点,f表示特征节点;采用多关系图卷积神经网络在G
m
中编码图的上下文信息,用下列公式进行计算:其中,和为多关系卷积神经网络中需要学习的参数,σ为RELU激活函数,表示相关联的第i个节点,x表示用户意图,i、j表示不同的目标,l表示层数。4.如权利要求1所述的用于体现用户意图和风格的个性化图像描述方法,其特征在于:所述图注意力机制包括,为了同时考虑图形结构与语义内容的相关性,把图内容注意力和图流动注意力相结合形成图注意力机制,用节点x
t
和查询之间的上下文的语义相关性计算出图内容注意力向
量计算公式如下:计算公式如下:其中,W
xc
、W
hc
和ω
c
表示网络训练参数,表示计算生成,表示注意力得分向量;因为两节点间的连接可忽略不计,内容注意力在不同的解码时从一个节点传送到图中更远距离的另一个节点,图流动注意力用下列公式来表示:更远距离的另一个节点,图流动注意力用下列公式来表示:其中,W
s
、W
sh
、W
sz
都表示网络训练参数,表示图流动注意力,Zt表示第t步预测单词的上下文向量;利用下列公式将上述图内容注意力与图流动注意力进行动态融合,得到最终的图注意力α
t
::其中,参数ω
g
、W
gh
、W
gz
是可学习参数,第t步预测单词的上下文向量为β
t
是图内容注意力权重参数。5.如权利要求1所述的用于体现用户意图和...

【专利技术属性】
技术研发人员:张灿龙王宇航
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1