一种购物小票识别方法及系统技术方案

技术编号:39048323 阅读:14 留言:0更新日期:2023-10-10 12:01
本发明专利技术公开了一种购物小票识别方法及系统,包括以下步骤:A、图片处理;B、图片布局分析;C、模板对比:将步骤B中得到的图片b与模板进行布局对比,如无相同布局的模板则将步骤B中得到的图片b制作成模板,人工框定图片b上的矩形区域为模板,并指定数据采集区,对数据采集区的数据进行采集,保存关键字域以及关键字域与数值域之间的向量差;如有相同布局的模板则按照模板指定的数据采集区采集数据,具体分为两步:第一步、通过OpenCV的相关性算法找到关键字域;第二步根据关键字域和数值域的向量差,计算出小票的数值域;D、将步骤C中采集的像素数据转化为文字并存入数据库。素数据转化为文字并存入数据库。素数据转化为文字并存入数据库。

【技术实现步骤摘要】
一种购物小票识别方法及系统


[0001]本专利技术涉及电子商务操作系统
,尤其涉及一种购物小票识别方法及系统。

技术介绍

[0002]商城、超市、门店在售出商品时会将商品明细和价格打印在小票上,客户可通过小票核对消费内容。小票信息在商家结算系统中有存根,商家可通过小票编号调取小票内容。但商家结算系统属于机密,不会透露给外人。
[0003]零售商在选址时会委托第三方做市场调查,第三方为了解商区客流量、消费水平、消费内容、消费特点等信息,通常会采用以下方式采集信息:1、送礼品吸引志愿者,填写调查表;2、回收购物小票,然后统计小票上的信息;3、其他方法。
[0004]方式2中需要对购物小票进行数据统计,人工统计的方法效率底下,采用自动化设备可提高效率,购物小票信息的采集属于图像处理技术,是一种对小票进行关键数据提取的技术。关键数据是指单笔消费金额、小票流水号、交易时间、交易明细等数据。通过对数据的汇总,可以获得商户的单笔消费金额、营收、客单价,并可绘制交易时间曲线。从而为零售商提供有说服力的调查报告。
[0005]现有技术已经可以对图片中的数字、文字进行采集并转化为数据。如附图1所示,现有技术包括图片识别模块、文本处理模块,“图片识别模块”先对小票图片进行识别成文本,然后“文本处理模块”对识别后的文本内容进行关键数据提取。该技术存在的不足是:1.需要人工校准导致成本高;2.识别整个小票图片涉及大量计算,耗时长。

技术实现思路

[0006]本专利技术针对现有技术需要人工校准导致数据提取成本高的问题,提供了一种购物小票识别方法及系统,识别准确度高、降低了人工校准的时间成本,可快速对购物小票进行数据提取,提高了工作效率。
[0007]本专利技术解决技术问题的技术方案为:本专利技术的实施例提供了一种购物小票图片识别方法,包括以下步骤:
[0008]A、图片处理,先后对购物小票图片进行灰度化、二值化处理,得到一张黑白两色的图片a,此时图片a的文字为黑色,背景为白色;
[0009]B、图片布局分析:通过纵轴和横轴的像素投影对图片a进行计算,像素投影的谷底部分既为文字边界,应用间隔阀值将同一行连续的文字划分为一个矩形区域,区域的边界与文字的边界一致,得到一系列具备矩形区域的图片b;
[0010]C、模板对比:将步骤B中得到的图片b与模板进行布局对比,如无相同布局的模板则根据步骤B中得到的图片b制作模板,人工框定图片b上的矩形区域为模板,并指定数据采集区,对数据采集区的数据进行采集;如有相同布局的模板则按照模板指定的数据采集区采集数据;
[0011]D、将步骤C中采集的像素数据转化为文字并存入数据库。
[0012]作为优化,所述步骤C中“制作模板”还包括保存关键字域以及关键字域与数值域之间的向量差。
[0013]作为优化,所述C中“有相同布局的模板则按照模板指定的数据采集区采集数据”具体分为两步:第一步、通过OpenCV的相关性算法找到关键字域;第二步根据关键字域和数值域的向量差,计算出小票的数值域。
[0014]作为优化,所述步骤C中还包括对图片b中的干扰图像,如直线、虚线、竖线、表格线进行过滤。
[0015]作为优化,所述步骤C中人工框定的矩形区域在同类小票中文本格式、文本内容、在小票中的位置至少有一项是固定的。
[0016]作为优化,所述步骤C中人工框定图片b上全部或部分矩形区域为模板。
[0017]本专利技术的实施例还提供了一种购物小票识别系统,包括图片采集模块、图片识别模块、文本处理模块、数据库,图片采集模块拍摄小票图片并将图片传送给图片识别模块,图片识别模块对小票图片进行图片识别转化为文本数据并将文本数据传送给文本处理模块,文本处理模块处理文本数据后得到关键数据并将关键数据存入数据库。
[0018]作为优化,所述图片识别模块还包括模板库,模板库中储存有固定布局的模板。
[0019]作为优化,所述模板还保存有关键字域的像素或文本数据以及关键字域与数值域之间的向量差。
[0020]
技术实现思路
中提供的效果仅仅是实施例的效果,而不是专利技术所有的全部效果,上述技术方案具有如下优点或有益效果:
[0021]1.同一收银台的同类小票具有布局相似性,本专利技术根据这个规律,把提取小票图片数据的方法分成四个要素:1.小票图片布局分析;2.模板生成;3.定位数据采集区;4.区域数据快速识别。通过以上四个要素的改进,降低了提取数据的成本,提高了数据识别的速度。
[0022]2.由于数据采集区锁定,识别数据需要的字库针对性强,针对性越强的字库,制作和识别效率越高,识别结果也越精准;只识别数据采集区的像素数据,节约了资源,提高了效率。
[0023]3.本专利技术通过关键字域查找数据区域的算法,量化了同类小票布局的相似性,并把这种布局相似性注入到模板中。应用该方法制定模板具有自动化程度高、效率高、准确度高等优势,大幅降低了人工成本。
[0024]4.本专利技术依赖算法创新,精简了参数输入,同时把比较、核对、修正等人力工作转变为自动计算,大幅减少了对人力的依赖。制作模板只需要简单培训,取消了对上岗人员专业和知识的要求。通过算法生成的模板,过程科学,结果准确,大幅降低了模板修正的发生率。
[0025]5.本专利技术设计了小票图片布局分析算法,实现了小票图片文字内容的分区划块,对小票图片中的干扰图像,如直线、虚线、竖线、表格线进行了过滤。该方法量化了小票图片中的有效数据布局,为后续通过计算找到数据区域提供了可行性。
附图说明
[0026]图1为现有技术的结构原理图。
[0027]图2为发票图片经过图片处理后得到的图片a。
[0028]图3为图片a经过图片布局分析后得到的图片b。
[0029]图4为图片b制作成模板时人工框定的区域划分图。
[0030]图5为本专利技术一种实施例的流程图。
[0031]图6为本专利技术一种实施例的结构原理图。
具体实施方式
[0032]为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。术语“安装”、“相连”、“连接”应做广义理解,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可根据具体情况理解上述术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种购物小票图片识别方法,其特征是,包括以下步骤:A、图片处理,先后对购物小票图片进行灰度化、二值化处理,得到一张黑白两色的图片a,此时图片a的文字为黑色,背景为白色;B、图片布局分析:通过纵轴和横轴的像素投影对图片a进行计算,像素投影的谷底部分既为文字边界,应用间隔阀值将同一行连续的文字划分为一个矩形区域,区域的边界与文字的边界一致,得到一系列具备矩形区域的图片b;C、模板对比:将步骤B中得到的图片b与模板进行布局对比,如无相同布局的模板则根据步骤B中得到的图片b制作模板,人工框定图片b上的矩形区域为模板,并指定数据采集区,对数据采集区的数据进行采集;如有相同布局的模板则按照模板指定的数据采集区采集数据;D、将步骤C中采集的像素数据转化为文字并存入数据库。2.根据权利要求1所述的一种购物小票识别方法,其特征是,所述步骤C中“制作模板”还包括:保存关键字域以及关键字域与数值域之间的向量差。3.根据权利要求2所述的一种购物小票识别方法,其特征是,所述C中“有相同布局的模板则按照模板指定的数据采集区采集数据”具体分为两步:第一步、通过OpenCV的相关性算法找到关键字域;第二步根据关键字域和数值域的向...

【专利技术属性】
技术研发人员:刘振国赵润泽高涛
申请(专利权)人:上海谦贸信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1