基于深度神经网络的端到端的图像多字符定位和匹配方法组成比例

技术编号：17196661 阅读：34 留言：0更新日期：2018-02-03 23:11

本发明专利技术涉及一种基于深度神经网络的端到端的图像多字符定位和匹配方法，其具有以下有益效果：1）方法的运行效率更高，整个方法流程在深度神经网络训练好之后，每次使用，只需要经过一次深度神经网络的前向传播计算，而不像现有方法有多个神经网络需计算多次，还有用聚类算法做字符提取等比较耗时的步骤。2）方法的准确率更高。整个方法流程就是直接优化最终目标的准确率，通过深度神经网络可以很好的做到这一点。而现有技术，最终目标的准确率依赖于各个步骤流程的准确率，由于只能分别优化各个步骤的准确率，没法直接优化最终目标，导致准确率较低，也很难改进。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度神经网络的端到端的图像多字符定位和匹配方法
本专利技术涉及人工智能
，更具体地，涉及一种基于深度神经网络的端到端的图像多字符定位和匹配方法。
技术介绍
对于两张包含有相同字符的图片，查询图x和被查询图y，现有技术主要通过以下方法对查询图x中的字符在被查询图y中的位置进行定位及匹配：S1.首先基于卷积神经网络识别出查询图x中从左到右出现的字符内容;S2.基于DBSCAN算法定位被查询图y中的所有字符，并将它们从被查询图y中切割出来；S3.基于卷积神经网络识别切割出来的所有字符内容；S4.将步骤S1中识别出的字符内容与步骤S3中识别出的字符内容进行匹配，即可得到查询图x中的字符在被查询图y中的位置。但是上述方案在进行定位和匹配的时候是将整个流程划分为四个步骤的，每个流程步骤在执行的时候均需要花费不少时间，这导致方法的运行效率较低，且最终定位和匹配的准确率依赖于每个流程步骤的准确率，若其中某一流程步骤的准确率不高，将会导致方法的准确率不高。
技术实现思路
本专利技术为解决以上现有技术的缺陷，提供了一种基于深度神经网络的端到端的图像多字符定位和匹配方法。为实现以上专利技术目的，采用的技术方案是：基于深度神经网络的端到端的图像多字符定位和匹配方法，包括有以下步骤：S1.令查询图片与对应的被查询图片为一对图片对，收集大量的图片对作为数据集，并对图片对中查询图片中的字符在被查询图片中的位置进行标注；S2.将数据集按照一定比例划分为三部分，分别为训练集、验证集和测试集；S3.搭建深度神经网络，利用训练集中的图片对作为输入对深度神经网络进行训练，并利用Adam算法...
基于深度神经网络的端到端的图像多字符定位和匹配方法

【技术保护点】
基于深度神经网络的端到端的图像多字符定位和匹配方法，其特征在于：包括有以下步骤：S1.令查询图片与对应的被查询图片为一对图片对，收集大量的图片对作为数据集，并对图片对中查询图片中的字符在被查询图片中的位置进行标注；S2.将数据集按照一定比例划分为三部分，分别为训练集、验证集和测试集；S3.搭建深度神经网络，利用训练集中的图片对作为输入对深度神经网络进行训练，并利用Adam算法对深度神经网络进行优化；S4.使用验证集中的图片对作为输入对优化后的深度神经网络进行验证，深度神经网络输出图片对中查询图片中的字符在被查询图片中的定位及匹配结果，由于步骤S1已经对图片对中查询图片中的字符在被查询图片中的位置进行标注，因此可计算深度神经网络在验证集上的准确率；S5.重复步骤S3~S4直至深度神经网络在验证集上的准确率满足设定的条件；S6.将测试集中的图片对作为输入对步骤S5训练好的深度神经网络进行测试，并根据深度神经网络输出的测试结果对深度神经网络的在测试集上的准确率进行统计，作为对深度神经网络的评估结果；S7.对于新的一对图片对，将其作为深度神经网络的输入，即可通过深度神经网络得到图片对中查询图片...

【技术特征摘要】
1.基于深度神经网络的端到端的图像多字符定位和匹配方法，其特征在于：包括有以下步骤：S1.令查询图片与对应的被查询图片为一对图片对，收集大量的图片对作为数据集，并对图片对中查询图片中的字符在被查询图片中的位置进行标注；S2.将数据集按照一定比例划分为三部分，分别为训练集、验证集和测试集；S3.搭建深度神经网络，利用训练集中的图片对作为输入对深度神经网络进行训练，并利用Adam算法对深度神经网络进行优化；S4.使用验证集中的图片对作为输入对优化后的深度神经网络进行验证，深度神经网络输出图片对中查询图片中的字符在被查询图片中的定位及匹配结果，由于步骤S1已经对图片对中查询图片中的字符在被查询图片中的位置进行标注，因此可计算深度神经网络在验证集上的准确率；S5.重复步骤S3~S4直至深度神经网络在验证集上的准确率满足设定的条件；S6.将测试集中的图片对作为输入对步骤S5训练好的深度神经网络进行测试，并根据深度神经网络输出的测试结果对深度神经网络的在测试集上的准确率进行统计，作为对深度神经网络的评估结果；S7.对于新的一对图片对，将其作为深度神经网络的输入，即可通过深度神经网络得到图片对中查询图片中的字符在被查询图片中的定位及匹配结果。2.根据权利要求1所述的基于深度神经网络的端到端的图像多字符定位和匹配方法，其特征在于：所述步骤S3、S4、S6、S7中，将图片对作为深度神经网络的输入时，是将查询图片、被查询图片的RGB像素值作为两个矩阵输入至深度神经网络中，深度神经网络经过前向传播的运算，计算得到的输出有多个值，这...

【专利技术属性】
技术研发人员：费行健，潘嵘，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人