当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法组成比例

技术编号:26420061 阅读:25 留言:0更新日期:2020-11-20 14:15
本发明专利技术公开了一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法。主要包括:图像特征提取与图像相似度计算。本发明专利技术训练一个孪生卷积神经网络用于提取手机拍摄文本图像特征,该网络有两个分支,每个分支由GhostNet构成,两个分支共享权重。训练时每次输入网络两个文本图像,每个图像经过一个分支,采用对比损失作为网络的损失函数。通过提高训练样本的多样性使得提取的图像特征对上述手机拍摄图像存在的光照不均匀、失焦以及投影变换等问题具有良好的鲁棒性。接下来,任给一个文本图像,将其输入训练好的孪生卷积神经网络的任意一个分支中,令GhostNet的最后一层输出作为该图像的特征。为了获得两个图像的相似度,采用欧式距离进行计算。

【技术实现步骤摘要】
一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法
本专利技术属于图像处理领域,特别涉及一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法。
技术介绍
随着智能手机的普及,人们经常对现实物理世界中感兴趣的文本拍照,并且利用该图像在因特网或者数字图书馆中进一步查找和该图像相关的信息,因此急需一种有效的手机拍摄文本图像匹配方法。手机拍摄图像容易受到光照不均匀、失焦模糊等因素影响,另一方面,由于拍摄角度不同,手机拍摄图像一般具有比较严重的投影变换,给后续的匹配带来很大的挑战。传统手机拍摄文本图像匹配方法首先将图像中的一个个词分割出来,接下来利用词之间的空间位置关系来描述图像,并将一个图像用多个特征向量表示出来。然而,文本图像中的词分割本身就是一个难题,由于手机拍摄文本图像的质量一般比较差,经常导致过分割或者多个词粘连,给后续匹配带来负面影响。为了解决该问题,本专利技术提出一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法,训练一个孪生卷积神经网络用于提取图像特征,通过提高训练集中正负样本的多样性,使得提取的特征对上述图像光照不均匀、失焦以及投影变换等问题具有较强的鲁棒性,有效地避免了传统方法中由于分割文本图像中的词所带来的问题。
技术实现思路
本专利技术提出了一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法,包括如下步骤:训练一个孪生卷积神经网络用于提取图像特征,该网络有两个分支,每个分支由GhostNet构成,两个分支共享权重。训练时,每次输入网络两个文本图像,每个图像经过一个分支,采用对比损失作为网络的损失函数。为了提取对手机拍摄文本图像所存在的光照不均匀、失焦模糊以及投影变换等问题具有良好鲁棒性的特征,提高了训练集中样本的多样性。具体来说,构成正样本的两个图像来自同一个文本,其中一个图像用手机拍摄得到,另一个图像通过其它方式获得,比如用扫描仪扫描。两个图像之间在光照、视角、亮度以及分辨率等方面均具有明显差异;构成负样本的两个图像来自不同文本。利用训练好的孪生卷积神经网络,可以提取任意文本图像的特征。具体来说,将图像输入训练好的孪生卷积神经网络的任意一个分支中,以GhostNet的最后一层输出作为该图像的特征。基于所提取的图像特征,利用欧式距离计算两个图像的相似度。本专利技术的有益效果在于:本专利技术所提出的基于孪生卷积神经网络的手机拍摄文本图像匹配方法对手机拍摄图像存在的光照不均匀、视角变换以及失焦模糊等问题均具有良好的鲁棒性。附图说明图1是本专利技术的流程图;图2是本专利技术提出的孪生卷积神经网络的结构图;图3是本专利技术提出的利用训练好的孪生卷积神经网络提取图像特征流程图。具体实施方式结合以下具体实施例和附图,对本专利技术作进一步的详细说明。实施本专利技术的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本专利技术没有特别限制内容。本专利技术提出的基于孪生卷积神经网络的手机拍摄文本图像匹配方法,主要由两部分构成:图像特征提取与图像相似度计算。为了提取图像特征,首先训练一个孪生卷积神经网络,该网络有两个分支,每个分支由GhostNet构成,两个分支共享权重,采用对比损失作为网络损失函数。接下来,任给一个图像,将其输入训练好的孪生卷积神经网络的任意一个分支中,将GhostNet的最后一层输出作为该图像的特征。为了获得两个图像的相似度,采用欧式距离进行计算。为了提取图像特征,训练一个孪生卷积神经网络,网络结构如图2所示,该网络有两个分支,每个分支由GhostNet构成,两个分支共享权重。每次输入网络两个图像I1和I2,每个图像经过网络的一个分支,网络最后一层为全连接层,输出表示为S1和S2。网络的损失函数定义如下:其中,N为训练样本数目,y为训练样本的标签,若输入的两个图像为正样本,则y=1;反之,若输入的两个图像为负样本,则y=0。m为阈值,设置为1.5。d代表两个图像I1和I2经过网络的输出S1和S2之间的欧式距离,具体定义如下:d=||S1-S2||2为了使得网络对手机拍摄文本图像存在的光照不均匀、失焦模糊以及投影变换等问题具有较强的鲁棒性,给网络提供具有多样性的训练样本。具体来说,构成正样本的两个图像来自同一个文本,其中一个图像是用手机拍摄得到,另一个图像通过其它方式获得,比如用扫描仪扫描。两个图像之间在光照、视角、亮度以及分辨率等方面均具有明显差异;构成负样本的两个图像来自不同文本。本专利技术采用平均随机梯度下降(ASGD)算法进行网络训练,学习率设置为0.00001,权重衰减系数设置为0.0005。训练好的网络将用于提取图像特征,具体来说,任给一个图像,将其输入训练好的网络的任意一个分支,与网络训练时相同,网络的最后一个全连接层的输出作为该图像特征,如图3所示。(图像相似度计算)给定两个图像I和I′,另其特征分别表示为S和S′,则两个图像的相似度s(I,I′)用欧式距离计算,具体公式如下,欧式距离越小,说明两个图像相似度越高;欧式距离越大,说明两个图像相似度越低。s(I,I')=||S-S′'||2。本专利技术所提出的基于孪生卷积神经网络的手机拍摄文本图像匹配方法对手机拍摄图像存在的光照不均匀、视角变换以及失焦模糊等问题均具有良好的鲁棒性。本文档来自技高网...

【技术保护点】
1.一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法,其特征在于,包括如下两个步骤:/n步骤一:提取图像特征,使得其对手机拍摄文本图像经常存在的光照不均匀、失焦模糊以及投影变换等问题具有良好的鲁棒性。/n步骤二:基于所提取的图像特征,利用欧式距离计算两个图像的相似度。/n

【技术特征摘要】
1.一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法,其特征在于,包括如下两个步骤:
步骤一:提取图像特征,使得其对手机拍摄文本图像经常存在的光照不均匀、失焦模糊以及投影变换等问题具有良好的鲁棒性。
步骤二:基于所提取的图像特征,利用欧式距离计算两个图像的相似度。


2.如权利要求1所述的一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法,其特征在于:所述步骤一的特征提取通过训练一个孪生卷积神经网络来实现,该网络有两个分支,每个分支由GhostNet构成,两个分支共享权重。


3.根据权利要求2所述的一种基于孪生卷积神经网络的手机拍摄文本图像匹配方法,其特征在于:训练时,每次输入网络两个文本图像,每个图像经过一个分支,采用对比损失作为网络的损失函数,定义如下:



其中,N为训练样本数目,y为训练样本的标签,若输入的两个图像为正样本,则y=1;反之,若输入的两个图像为负样本,则y...

【专利技术属性】
技术研发人员:刘丽胡煜鑫邱桃荣
申请(专利权)人:南昌大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1