【技术实现步骤摘要】
一种跨媒体图像检索方法及系统
[0001]本专利技术涉及图像处理领域,具体涉及一种跨媒体图像检索方法及系统。
技术介绍
[0002]目前的图像主旨提取算法的技术方案主要是通过CNN提取图像特征,再利用LSTM生成句子。
[0003]CNN是在许多领域中采用的一类可学习的体系结构,例如图像识别,图像注释,图像检索。CNN通常由几层组成,每层都包含线性和非线性运算符,它们以端对端的方式共同学习以解决特定任务。用于图像分类的CNN体系结构包括几个卷积层,然后是一个或多个完全连接的层,CNN的输出是最后一个完全连接层的输出,输出节点的数量等于图像类的数量。
[0004]经过训练可以解决给定任务的CNN也可以适用于解决其他任务。从头开始训练整个CNN并不总是可能的,因为拥有足够大小的数据集相对很少。通常使用在非常大的数据集上进行预训练的CNN。例如,ImageNet数据集包含120万张具有1000个类别的图像。
[0005]然后,将预训练的网络用作感兴趣任务的初始化或固定特征提取器。如果将网络用作特征提取器,则 ...
【技术保护点】
【技术特征摘要】
1.一种跨媒体图像检索方法,其特征在于,包括:获取数据库中所有图片和待检索的文本标题;将所述图片输入到预先构建的图片标题生成模型,得到所述图片对应的文本标题,并将所述图片与所述图片对应的文本标题以对的形式更新数据库中原始图片;采用文本匹配的检索方法从更新后的数据库中检索所述待检索的文本标题对应的图片;其中,所述图片标题生成模型是基于卷积神经网络
‑
循环神经网络进行训练,并采用强化学习方法对所述图片标题生成模型的参数优化后得到。2.如权利要求1所述的跨媒体图像检索方法,其特征在于,所述图片标题生成模型的构建,包括:收集图片,并对所述图片进行文本标题描述得到各图片对应的文本标题;将图片和图片对应的文本标题构建训练集;将训练集中所有图片输入到卷积神经网络进行图像特征提取,并将提取的图像特征输入到循环神经网络中;由所述循环神经网络输出每张图片对应的文本标题,并基于生成的每张图片对应的文本标题与所述训练集中的文本标题的差异优化所述循环神经网络中的参数,得到训练好的图片标题生成模型。3.如权利要求2所述的跨媒体图像检索方法,其特征在于,所述将训练集中所有图片输入到卷积神经网络进行图像特征提取,包括:将训练集中所有图片输入到卷积神经网络中,由卷积神经网络中的区域提议网络生成候选框,并对所述候选框进行裁剪过滤后通过softmax函数判断像素点属于前景或背景;采用卷积神经网络中的包围框回归模型修正所述候选框;将修正后的候选框映射到卷积神经网络的最后一层卷积特征图上;通过对属于前景的修正后的候选框中的区域进行池化,使每个层级生成固定尺寸的特征图;采用分类概率损失函数计算softmax函数判断候选框中像素点属于前景或背景与所述训练集中图片对应的文本标题的候选框中像素点属于前景或背景不一致的概率损失,并采用边框回归损失函数计算修正后的候选框四角坐标与训练集中图片对应的文本标题的候选框四角坐标的差异导致的边框回归损失;以概率损失和边框回归损失最小为目标优化所述卷积神经网络参数;对特征图中不同层级的关键特征进行特征融合和池化,得到图像特征;其中,所述关键特征包括图片中物体的类别信息和位置信息。4.如权利要求3所述的跨媒体图像检索方法,其特征在于,所述由所述循环神经网络输出每张图片对应的文本标题,包括:由所述循环神经网络的注意力lstm层将输入的同一图片的图像特征进行归一化处理得到各图像特征之间的注意力权重,并将所述各图像特征之间的注意力权重输入到Attend模块对图像特征赋予权重,输出带有权重的图像特征作为语言lstm层的输入,输出同一图片中的图像特征对应的单词概率;由同一图片的所有图像特征对应的单词概率组成概率分布...
【专利技术属性】
技术研发人员:程志华,高灵超,陈振宇,王路涛,李博,李继伟,王家凯,吕宏伟,聂玲,郑菲,
申请(专利权)人:国家电网有限公司大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。