【技术实现步骤摘要】
提高图像文本描述独特多样性的网络构建方法
[0001]本专利技术属于图像文本描述网络
,涉及一种提高图像文本描述独特多样性的网络构建方法。
技术介绍
[0002]图像是人类活动中最常用的信息载体,蕴含着丰富的有用信息。如何自动提取图像内容,对其进行文本的正确描述虽很困难,但已经具有了可行性。图像文本描述算法是指对于给定的图像,计算机自动输出一句描述图像内容的文字。由于其能够完成从图像到文本信息的跨模态转换,所以可以应用到图像的跨模态快速检索等多个领域,因此,这个方向的研究具有广泛的应用前景。
[0003]图像文本描述的独特多样性主要取决于两个方面:一是对图像中包含物体的主要属性的准确识别能力;二是通过解码网络准确输出文本内容的描述能力,而不只是对图像中物体、场景的广泛概况。对物体属性的准确识别能力是能输出独特单词的前提,这部分的工作要求提取到的特征具有代表性。之后在模型的解码器中提高独特单词的输出概率,但是现有技术在这方面还存在输出物体信息不准确、输出句子信息较少的不足。
技术实现思路
[000 ...
【技术保护点】
【技术特征摘要】
1.一种提高图像文本描述独特多样性的网络构建方法,其特征在于,包括以下步骤:步骤1,构建网络模型图像数据集;步骤2,提取图像数据集的全局特征g
ks
和抽象场景图节点的区域特征;步骤3,用编码器对抽象场景图节点区域特征进行编码,得到最终的区域特征对取平均值得到平均区域编码特征将和g
ks
融合,得到编码阶段输出的全局特征步骤4,将全局特征通过双层解码器解码,得到输出并将通过图更新模块更新区域特征,重新计算节点权重,生成下一个单词,以此类推;步骤5,构建单词精细模块,选择出更准确更独特的单词;步骤6,构建单词校正模块,通过单词校正模块输出语句;步骤7,使用标准的交叉熵损失训练网络,完成网络构建。2.根据权利1所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤1的具体过程如下:步骤1.1,建立训练及验证图像数据集选用数据集图像样本和标签作为特征提取网络的数据样本,数据集的90%作为训练集,其余作为验证集,统称为样本图像;步骤1.2,建立控制条件数据集通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图,确定每幅图像中的对象节点、属性节点和关系节点,训练样本和验证样本图像数据集的抽象场景图ASG记为G
ks
=(N
ks
,E
ks
),ks=1,2,...,N
s
,N
s
为数据集中的样本个数,样本集合的ASG节点集合为N
ks
=[node
1ks
,node
2ks
,...,node
Neks
],node
kks
∈{o,a,r},k=1,2,...,Ne,Ne为节点个数,ASG的边集合为E
ks
=[e
i,j
]
Ne
×
Ne
,e
i,j
∈{0,1}。3.根据权利2所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤2的具体过程如下:步骤2.1,建立描述文本的语义词典从训练集和验证集样本的标注中,选择出现频次最高的前m个单词,组成语义概念集合,m的取值范围为[10000,12000],对每个单词分配一个整数序号,再加上三个特殊位:开始标志位、结束标志位和低频词位,共m+3个整数序号构成词典;利用建立的词典对数据集样本进行语义词典标注,语义属性标注为Y
ks
,,是第t个单词在文本语义词典中的排序序号,t=1,2,...,L
ks
,L
ks
是数据集样本中第ks幅图像的文本描述长度;步骤2.2,提取全局特征采用ResNet网络提取样本图像的全局特征g
ks
,取卷积网络ResNet中最后一层平均池化层的输出M1维特征向量描述图像的全局特征;步骤2.3,提取抽象场景图节点的区域特征取Faster
‑
RCNN网络的全连接fc7层作为图像区域特征,提取所有ASG节点N
ks
的区域特征对于node
kks
=o的目标节点,为在对应的区域上提取的特征;对于node
kks
=a的属
性节点,与其连接的对象节点的区域特征相同,对于node
kks
=r的关系节点,从涉及到的两个关联目标的联合区域中提取。4.根据权利3所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤3中编码器包括节点嵌入模块和图卷积模块,步骤3具体过程如下:步骤3.1,将代表不同节点的区域特征输入节点嵌入模块,进行节点嵌入增强,得到具有节点属性感知的区域特征Z
kks
:其中,W
r
是3
×
M1大小的节点嵌入矩阵,W
r
[1],W
r
[2],W
r
[3]分别表示W
r
的第1、2、3行,是第k个节点的属性,pos
k
是M1维的位置嵌入向量,当节点为属性节点时增大W
r
[2]的权重系数,用来区分连接同一对象的不同属性节点的顺序,其中:步骤3.2,将节点特征Z
kks
输入图卷积模块进行编码,得到最终的区域特征输入图卷积模块进行编码,得到最终的区域特征其中,表示节点k在关系s下的邻居节点,σ是ReLU激活函数,是由网络学出的第l层的关系s的参数;步骤3.3,特征融合对取平均值得...
【专利技术属性】
技术研发人员:朱虹,张雨嘉,杜森,史静,王栋,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。