一种基于绘本识别的图像数据处理方法及系统技术方案

技术编号:21659433 阅读:35 留言:0更新日期:2019-07-20 05:49
本发明专利技术提供一种基于绘本识别的图像数据处理方法,包括:获取拍照指令并采集图像;利用预设的检索匹配优化模型,对拍摄图像进行编码;根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码,计算拍摄图像与每幅待检索图像间的第一相似度并进行排序;从第一排序结果中筛选出满足预设的比例条件的待检索图像,计算相应的第二相似度并进行排序;从第二排序结果中筛选出检索结果并输出相关的多模态信息。本发明专利技术不仅保障了检索精度,还有效降低计算和检索时间,缩短用户等待时间,可识别并检索低分辨率图像,降低在线识别带宽需求,从而降低系统成本。

An Image Data Processing Method and System Based on Picture Book Recognition

【技术实现步骤摘要】
一种基于绘本识别的图像数据处理方法及系统
本专利技术涉及人工智能领域,具体地说,涉及一种基于绘本识别的图像数据处理方法及系统。
技术介绍
随着人工智能的发展,越来越多的绘本阅读机器人推向市面,通过识别卡片、书籍上的内容,例如识别各种形状交通工具、类人机器人、乐器、动植物等内容后,检索出与识别内容相关的多模态输出数据,同时以语音播报、动作呈现和/或屏幕显示等形式输出相关联的多模态数据,从而提升用户的认知能力。绘本阅读机器人将印刷品检索技术相结合,使得机器人具有了与检索印刷品图片相关信息的交互能力,加强了机器人在图片检索等领域的应用。然而,现有的绘本阅读机器人在进行内容识别过程中,常常受到图片质量、拍摄环境条件影响,而采集到不同清晰度质量的图像数据,从而影响图像的多模态输出数据检索的正确率,使得绘本阅读机器人输出的数据常与采集的内容不匹配,大大影响了用户的体验感。另外,对于现有的印刷品检索算法来说,要求目标图片和数据库中图片的图案具有包括旋转和位移等的几何对应关系,因此,需要对图片上对应点的几何关系进行校验。在以往的方案中,这种几何校验需要提取每张图片的局部特征点,并对两张图片的特征点进行逐一匹配,并检验匹配点之间的几何关系,这些特征点的存储占用大量内存,进一步匹配过程计算量大并占用了大量的内存空间。因此,需要一种轻量级的针对平面印刷图案扫描件的基于绘本识别的图像数据处理方法及系统,以使绘本阅读机器人能基于各种拍摄环境来输出与扫描件相匹配的多模态数据。
技术实现思路
为解决上述问题,本专利技术提供了一种基于绘本识别的图像数据处理方法,其特征在于,包括:步骤一,获取拍照指令并采集图像;步骤二,利用预设的检索匹配优化模型,对所述拍摄图像进行编码,其中,所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的;步骤三,根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码,计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序;步骤四,从第一排序结果中筛选出满足预设的比例条件的所述待检索图像,计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序;步骤五,从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果,并输出与所述检索结果相关的多模态信息。根据本专利技术的一个实施例,在计算所述第二相似度时,进一步包括:获取所述拍摄图像的池化坐标向量;根据拍摄图像的所述池化坐标向量和当前待检索图像对应的所述池化坐标向量,计算这两个所述池化坐标向量中每对同一位置坐标的欧氏距离,得到相应的权值评价向量;利用预设的非线性单调递减函数,对所述权值评价向量进行滤波处理,得到相应的特征修正向量;将所述特征修正向量与所述拍摄图像和所述当前待检索图像中的任一图像对应的第一特征向量进行点乘运算,进一步将点乘运算结果与所述拍摄图像和所述当前待检索图像中的另一图像对应的第一特征向量进行内积运算,得到相应的所述第二相似度。根据本专利技术的一个实施例,所述非线性单调递减函数优选为基于预设的权重阈值的二值化函数。根据本专利技术的一个实施例,在所述步骤二中,利用图像处理技术,检测所述拍摄图像,确定表示当前拍摄环境的光照条件和图像清晰度的环境状态信息;根据当前的服务器运行速度及资源剩余量,结合所述环境状态信息,选择相适应的所述卷积神经网络模型,并确定相应的所述检索匹配优化模型。根据本专利技术的一个实施例,选中所述卷积神经网络模型,保留所有卷积滤波处理部分,并将最后一个卷积层以后的结构进行裁切,得到相应的所述检索匹配优化模型。根据本专利技术的一个实施例,在所述步骤五中,根据所述第二排序结果确定所述第二相似度的最高值,进一步利用预设的检索结果输出阈值,确定当前是否存在有效检索结果,其中,若最高第二相似度达到或超过所述检索结果输出阈值,则存在所述有效检索结果,将具有所述最高第二相似度的图片作为当前有效检索结果。根据本专利技术的一个实施例,将所述不同质量的拍摄图片作为输入,所述图像数据库中的所述待检索图像作为目标数据集,利用建立分类任务的方法、和/或基于GEM特征的将SNCA损失作为任务的方法、和/或基于GEM特征的将对比损失作为任务的方法,训练出所述卷积神经网络模型。根据本专利技术的一个实施例,在计算所述第一相似度时,进一步包括:将所述拍摄图像编码结果依次进行最大池化处理和二阶范数归一化处理,得到针对所述拍摄图像的池化坐标向量及第一特征向量;将所述拍摄图片的第一特征向量与当前待检索图像对应的第一特征向量进行内积运算,得到相应的所述第一相似度。本专利技术还提出了一种基于绘本识别的图像数据处理系统,包括:图像获取模块,其获取拍照指令并采集图像;图像编码模块,其利用预设的检索匹配优化模型,对所述拍摄图像进行编码,其中,所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的;初级排序模块,其根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码,计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序;优化排序模块,其从第一排序结果中筛选出满足预设的比例条件的所述待检索图像,计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序;结果输出模块,其从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果,并输出与所述检索结果相关的多模态信息。根据本专利技术的一个实施例,所述优化排序模块包括:优化排序数据获取单元,其获取所述拍摄图像的池化坐标向量;权值评价向量生成单元,其根据拍摄图像的所述池化坐标向量和当前待检索图像对应的所述池化坐标向量,计算这两个所述池化坐标向量中每对同一位置坐标的欧氏距离,得到相应的权值评价向量;特征修正向量生成单元,其利用预设的非线性单调递减函数,对所述权值评价向量进行滤波处理,得到相应的特征修正向量;第二相似度计算单元,其将所述特征修正向量与所述拍摄图像和所述当前待检索图像中的任一图像对应的第一特征向量进行点乘运算,进一步将点乘运算结果与所述拍摄图像和所述当前待检索图像中的另一图像对应的第一特征向量进行内积运算,得到相应的所述第二相似度。本专利技术还提出了一种绘本阅读机器人,用于执行如上述所述的方法步骤的一系列指令。本专利技术还提出了一种绘本阅读装置,包括:如上述所述的绘本阅读机器人;和如上述所述的基于绘本识别的图像数据处理系统。本专利技术提供的基于绘本识别的图像数据处理方法及系统,能够使得绘本阅读机器人实现基于各种拍摄环境来输出与扫描件相匹配的多模态数据的功能。本专利技术利用经过裁切处理的微型卷积神经网络模型,以基本保持检索精度的情况下减少内存占用空间及算力需求,快速检索出最终的匹配结果,达到降低成本的目的。另外,由于本专利技术采用了经过大量不同拍摄环境下的自然拍摄图片作为预训练的卷积神经网络模型的训练数据,使得本专利技术实施例中的在线编码过程能够对不同环境质量的图片有更好的识别能力,使得检索匹配优化模型具有较强的鲁棒性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部本文档来自技高网...

【技术保护点】
1.一种基于绘本识别的图像数据处理方法,其特征在于,包括:步骤一,获取拍照指令并采集图像;步骤二,利用预设的检索匹配优化模型,对拍摄图像进行编码,其中,所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的;步骤三,根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码,计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序;步骤四,从第一排序结果中筛选出满足预设的比例条件的所述待检索图像,计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序;步骤五,从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果,并输出与所述检索结果相关的多模态信息。

【技术特征摘要】
1.一种基于绘本识别的图像数据处理方法,其特征在于,包括:步骤一,获取拍照指令并采集图像;步骤二,利用预设的检索匹配优化模型,对拍摄图像进行编码,其中,所述优化模型是将基于不同质量的拍摄图片训练出的卷积神经网络模型经裁切处理后得到的;步骤三,根据拍摄图像编码结果以及图像数据库中每幅待检索图像对应的编码,计算所述拍摄图像与所述每幅待检索图像间的第一相似度并进行排序;步骤四,从第一排序结果中筛选出满足预设的比例条件的所述待检索图像,计算所述拍摄图像与每幅满足比例条件的待检索图像间的第二相似度并进行排序;步骤五,从第二排序结果中筛选出针对当前基于绘本识别的图像数据处理的检索结果,并输出与所述检索结果相关的多模态信息。2.根据权利要求1所述的方法,其特征在于,在计算所述第二相似度时,进一步包括:获取所述拍摄图像的池化坐标向量;根据拍摄图像的所述池化坐标向量和当前待检索图像对应的所述池化坐标向量,计算这两个所述池化坐标向量中每对同一位置坐标的欧氏距离,得到相应的权值评价向量;利用预设的非线性单调递减函数,对所述权值评价向量进行滤波处理,得到相应的特征修正向量;将所述特征修正向量与所述拍摄图像和所述当前待检索图像中的任一图像对应的第一特征向量进行点乘运算,进一步将点乘运算结果与所述拍摄图像和所述当前待检索图像中的另一图像对应的第一特征向量进行内积运算,得到相应的所述第二相似度。3.根据权利要求2所述的方法,其特征在于,所述非线性单调递减函数优选为基于预设的权重阈值的二值化函数。4.根据权利要求1~3中任一项所述的方法,其特征在于,在所述步骤二中,利用图像处理技术,检测所述拍摄图像,确定表示当前拍摄环境的光照条件和图像清晰度的环境状态信息;根据当前的服务器运行速度及资源剩余量,结合所述环境状态信息,选择相适应的所述卷积神经网络模型,并确定相应的所述检索匹配优化模型。5.根据权利要求4所述的方法,其特征在于,选中所述卷积神经网络模型,保留所有卷积滤波处理部分,并将最后一个卷积层以后的结构进行裁切,得到相应的所述检索匹配优化模型。6.根据权利要求1~5中任一项所述的方法,其特征在于,在所述步骤五中,根据所述第二排序结果确定所述第二相似度的最高值,进一步利用预设的检索结果输出阈值,确定当前是否存在有效检索结果,其中,若最高第二相似度达到或超过所述检索结果输出阈值,则存在所述有效检索结果,将具有所述最高第二相似度的图片作为当前有效检索结果。7.根据权利要求1~6中任一项所...

【专利技术属性】
技术研发人员:陆羽皓
申请(专利权)人:北京光年无限科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1