一种基于交付式的模板匹配信息提取方法技术

技术编号:32548779 阅读:17 留言:0更新日期:2022-03-05 11:48
本发明专利技术公开了一种基于交付式的模板匹配信息提取方法,所述提取法包括以下步骤:S1、建立模板;S2、交付式模板匹配,指导巡店人员拍摄出合格的图像;S3、根据对应的模板,完成信息提取。该基于交付式的模板匹配信息提取方法,能够针对现场环境复杂、图片样式多样的结构化信息提取和录入。息提取和录入。息提取和录入。

【技术实现步骤摘要】
一种基于交付式的模板匹配信息提取方法


[0001]本专利技术涉及图像文本处理
,具体为一种基于交付式的模板匹配信息提取方法。

技术介绍

[0002]在零售领域,很多零售厂家都会有专门的巡店人员定期到各大零售商店获取相关的零售数据。当前很多厂商获取的方法是通过拍摄电脑屏幕上的数据,然后再人工录入各自的系统上面。这种方式效率不高,也给他们的工作带来了极大的不便。
[0003]随着AI技术的发展,目前的OCR技术已经能够顺利的识别出自然场景中的文字。但只是简单的把文字信息进行逐行的识别,并没有对识别出的信息进行结构化提取。
[0004]另一方面,由于巡店人员是使用手机拍摄。由于人员的操作不规范和现场条件的限制,拍摄的图像往往有很大的倾斜,这也给OCR识别的准确度带来了很大的影响。
[0005]因此,我们提出一种基于交付式的模板匹配信息提取方法,以便于解决上述中提出的问题。

技术实现思路

[0006]本专利技术的目的在于提供一种基于交付式的模板匹配信息提取方法,以解决上述
技术介绍
提出的目前的OCR技术只是简单的把文字信息进行逐行的识别,并没有对识别出的信息进行结构化提取,同时由于人员的操作不规范和现场条件的限制,拍摄的图像往往有很大的倾斜,给OCR识别的准确度造成很大的影响的问题。
[0007]为解决上述问题,本专利技术提供如下技术方案:一种基于交付式的模板匹配信息提取方法,所述提取方法包括以下步骤:
[0008]S1、建立模板;
[0009]1)选择一张清晰和拍摄角度规范的图像作为模板;
[0010]2)调用OCR文字识别,识别出模板的文字信息;
[0011]3)选取模板的anchor字段,其中,anchor字段必须唯一;
[0012]4)选取需要识别的区域,并对该区域进行标识;
[0013]5)保持模板的信息;
[0014]S2、交付式模板匹配,指导巡店人员拍摄出合格的图像;
[0015]1)巡店人员进入门店,选取该门店对应的模板;
[0016]2)拍摄图像,并上传云端进行匹配计算;
[0017]3)如果匹配的分数大于阈值,拍摄合格,上传图像并保持,如果匹配分数小于阈值,则拍摄不合格,提醒巡店人员重新拍摄,重复上述步骤直到拍摄出合格的图像;
[0018]S3、根据对应的模板,完成信息提取;
[0019]1)对输入图像进行方向矫正,获得矫正图像R;
[0020]2)根据该图像对应的模板,进行OCR识别并模板匹配,获得模板匹配图像M;
[0021]3)对匹配图像M进行OCR重新识别,获得匹配图像M的相关文字信息;
[0022]4)加载该图像对应的模板信息,获得需要识别的区域,通过上一步骤识别的信息,提取出对应的结构化信息;
[0023]5)将提取的结构化信息录入数据库。
[0024]综上所述,S1中模板的信息包括anchor字段信息和识别区域信息。
[0025]与现有技术相比,本专利技术的有益效果是:该基于交付式的模板匹配信息提取方法,能够针对现场环境复杂、图片样式多样的结构化信息提取和录入。
附图说明
[0026]图1为本专利技术建立模板的处理流程图;
[0027]图2为本专利技术基于交付式的模板匹配的流程图;
[0028]图3为本专利技术基于模板的进行结构化信息的提取流程图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]请参阅图1,本实施例提供一种技术方案:一种基于交付式的模板匹配信息提取方法,所述实现方法包括以下步骤:
[0031]S1、建立模板
[0032]如图1所示,首先选择一张清晰符合规范的图像作为模板。在模板中选取anchor字段,该anchor字段必须唯一;另一方面,尽可能选择分布在四个角落的唯一字段作为anchor,这会大大提升模板匹配的准确度。然后选择需要识别的区域字段,并对该字段命名一个唯一的key值,便于后续信息提取。最后将上述信息都保存下来,作为该模板的信息。
[0033]S2、交付式模板匹配,指导巡店人员拍摄出合格的图像
[0034]如图2所示,用户进入门店进行拍摄,需要选取该门店对应的模板;对于拍摄的图像上传云端进行模板匹配,获取一个匹配分数score;
[0035]score=匹配到的字段数/anchor字段总数,如果该score大于预设置的threshold,则图像合格。否则提醒巡店人员,拍摄不合格,重新拍摄。针对不同的模板,可以设置不同的threshold值。
[0036]S3、根据对应的模板,完成信息提取
[0037]如图3所示,首先对图像进行方向矫正,主要包括大角度(横竖方向)的矫正和小角度(小于90度)的方向矫正,对矫正后的图像进行OCR文字识别;
[0038]然后进行模板匹配(解决透视变化的角度问题),对匹配后的图像再次进行OCR识别(模板匹配后的图像的OCR识别更为准确),加载该图像对应的模板信息,获取待识别区域,获得该识别区域的文字信息,最后将识别出的结构化信息录入到数据库中。
[0039]以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改以及变化。凡在本申请的精神以及原则之内,所作的任
何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号以及字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义以及解释。
[0040]以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本
的技术人员在本申请揭露的技术范围内,可轻易想到变化或者替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于交付式的模板匹配信息提取方法,其特征在于,所述提取方法包括以下步骤:(S1)、建立模板;(1)选择一张清晰和拍摄角度规范的图像作为模板;(2)调用OCR文字识别,识别出模板的文字信息;(3)选取模板的anchor字段,其中,anchor字段必须唯一;(4)选取需要识别的区域,并对该区域进行标识;(5)保持模板的信息;(S2)、交付式模板匹配,指导巡店人员拍摄出合格的图像;(1)巡店人员进入门店,选取该门店对应的模板;(2)拍摄图像,并上传云端进行匹配计算;(3)如果匹配的分数大于阈值,拍摄合格,上传图像并保持,如果匹配分数小于阈值,则拍摄不合格,提...

【专利技术属性】
技术研发人员:刘春刚李佩钊
申请(专利权)人:上海云扩信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1