一种基于OCR的随货单识别校准方法技术

技术编号:37058548 阅读:11 留言:0更新日期:2023-03-29 19:35
本发明专利技术涉及一种基于OCR的随货单识别校准方法,包括:通过外部OCR接口对随货单图像进行识别,并识别随货单中包含公司的关键文字块,与商品数据库匹配,得到供应商名称;将随货单表格与表格模板适配,判断是否存在对应的目标表格模板;若存在,则根据文字块坐标将文字块对应填充至目标表格模板,得到表格信息对象;在表格信息对象中商品行数信息不为空时,确定随货单表格与目标表格模板适配准确,则确定表格信息对象作为识别结果,识别结果包括属性文本和商品行数信息。本申请通过结合OCR文字识别技术提取随货单的图片数据,并结合行列坐标校验、多模板适配以及药店商品库数据,校准上述图片数据,从而提高随货单识别的准确性以及入库的效率。入库的效率。入库的效率。

【技术实现步骤摘要】
一种基于OCR的随货单识别校准方法


[0001]本专利技术涉及信息
,尤其涉及一种基于OCR的随货单识别校准方法。

技术介绍

[0002]随货单是药店随货同行单、销售单、出库单等的统称,作为药品流通企业、医疗机构购销药品要建立销售记录,做到票据、账目、货物、货款相一致的必须凭证。
[0003]基于阿里提供的通用OCR文字识别技术,可以初步做到随货单上大部分的文字识别,但是由于用户的拍照技术水平不一,图片质量参差不齐,容易造成直接识别出来的文字无法直接使用,影响随货单识别的准确性和随货单信息入库的效率。

技术实现思路

[0004]基于此,本专利技术提供一种基于OCR的随货单识别校准方法。通过结合OCR文字识别技术提取随货单的图片数据,并结合行列坐标校验、多模板适配以及药店商品库数据,校准上述图片数据,从而提高随货单识别的准确性以及入库的效率。
[0005]根据本申请的一些实施例的第一方面,提供了一种基于OCR的随货单识别校准方法,包括以下步骤:
[0006]获取随货单图像,通过外部OCR接口对所述随货单图像进行识别,并得到预设输出格式的所述随货单的表格和以所述表格为参照的文字块坐标;
[0007]计算以所述随货单为参照的表格坐标和文字块位置坐标,将所述表格坐标与所述文字块位置坐标一一对应,得到校准好的所述随货单;
[0008]识别所述随货单中包含公司的关键文字块,并与商品数据库匹配,得到所述随货单的供应商名称;
[0009]将所述供应商名称对应的随货单表格与预存的多个表格模板适配,判断是否存在对应的目标表格模板;
[0010]若存在所述目标表格模板,则根据所述文字块坐标将所述文字块对应填充至所述目标表格模板,得到表格信息对象;
[0011]在所述表格信息对象中商品行数信息不为空时,确定所述随货单表格与所述目标表格模板适配准确,则确定所述表格信息对象作为识别结果,所述识别结果包括属性文本和商品行数信息。
[0012]进一步地,识别所述随货单中包含公司的关键文字块前,还包括:计算以所述随货单为参照的表格坐标和文字块位置坐标,将所述表格坐标与所述文字块位置坐标一一对应,得到校准好的所述随货单。
[0013]进一步地,若存在所述目标表格模板,还包括:
[0014]获取若干属性文本在所述随货单表格的表头行中对应的第一属性列坐标,以及在所述目标表格模板的表头行中对应的第二属性列坐标,其中,所述属性文本包括批准文号、通用名、生产厂家、规格、生产日期、有效期、数量、生产批号、单价、产地;
[0015]将若干所述属性文本的第二属性列坐标校准至与其对应的第一属性列坐标。
[0016]进一步地,将若干所述属性文本的第二属性列坐标校准至与其对应的第一属性列坐标后,还包括:
[0017]判断所述随货单表格是否符合预设的模板适配条件,所述模板适配条件包括:所述随货单表格的属性文本一半以上与所述目标表格模板的属性文本一致,或者,所述随货单表格的属性文本三分之一以上与所述目标表格模板的属性文本一致,且所述属性文本中批准文号的第一属性列坐标与第二属性列坐标一致;
[0018]若不符合,则根据获取的所述第一属性列坐标,构建对应的通用表格;
[0019]将所述随货单的文字块填充至所述通用表格内,对应生成表格信息对象。
[0020]进一步地,在所述表格信息对象中商品行数信息为空时,确定所述随货单表格与所述目标表格模板适配错误,则根据获取的所述第一属性列坐标,构建对应的通用表格;
[0021]将所述随货单的文字块填充至所述通用表格内,对应生成表格信息对象。
[0022]进一步地,若不存在所述目标表格模板,则根据获取的所述第一属性列坐标,构建对应的通用表格;
[0023]将所述随货单的文字块填充至所述通用表格内,对应生成表格信息对象。
[0024]进一步地,得到表格信息对象前,还包括:
[0025]通过文字块位置坐标和表格坐标对填充的所述目标表格模板校准,得到表格信息对象。
[0026]进一步地,识别所述随货单中包含公司的关键文字块,并与商品数据库匹配,得到所述随货单的供应商名称,包括:
[0027]识别包含公司的关键文字块并根据坐标排序,依序匹配与所述商品数据库中供应商名称的相似度;
[0028]确定所述相似度最大的供应商名称为所述随货单的供应商名称。
[0029]进一步地,该方法还包括:将所述识别结果中的商品名称、商品规格、生产厂家、批准文号与目标药店对应所述商品数据库中的子数据库匹配,获取符合所述目标药店的第一识别结果;
[0030]根据所述识别结果中的批准文号及商品名称长度,计算得到所述识别结果的基础分,所述基础分用于指示识别结果和所述商品数据库的匹配度;
[0031]选取超过所述基础分的第一识别结果,再次与所述商品数据库进行匹配,获取符合所述商品数据库的第二识别结果;
[0032]合并所述第一识别结果和所述第二识别结果,并选取排序前五的识别结果作为准确识别结果。
[0033]进一步地,所述外部OCR接口为阿里OCR接口,所述预设输出格式为JSON格式。
[0034]本申请基于现有的OCR文字识别技术基础,结合现有的商品数据库,对随货单的关键字进行识别并适配对应的预存目标表格模板,从而根据目标表格模板读取随货单数据,极大的提高了随货单入库效率。其次,还通过对OCR的识别结果结合随货单的绝对坐标,对其识别的坐标信息进行校验,解决了由于用户拍照导致的表格倾斜或者文字错位的问题。最后,本申请还通过结合药店对应的商品数据库,关联药店中已有的商品库信息,使得识别到的信息与商品库信息进行匹配校准,提高了对随货单中的模糊文字的识别准确性。
[0035]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图说明
[0036]图1为常见的随货单示意图;
[0037]图2为通过OCR识别后得到的随货单;
[0038]图3为本申请实施例中的基于OCR的随货单识别及校准方法的步骤流程图。
具体实施方式
[0039]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
[0040]应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
[0041]在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的随货单识别校准方法,其特征在于,该方法包括以下步骤:获取随货单图像,通过外部OCR接口对所述随货单图像进行识别,并得到预设输出格式的所述随货单的表格和以所述表格为参照的文字块坐标;识别所述随货单中包含公司的关键文字块,并与商品数据库匹配,得到所述随货单的供应商名称;将所述供应商名称对应的随货单表格与预存的多个表格模板适配,判断是否存在对应的目标表格模板;若存在所述目标表格模板,则根据所述文字块坐标将所述文字块对应填充至所述目标表格模板,得到表格信息对象;在所述表格信息对象中商品行数信息不为空时,确定所述随货单表格与所述目标表格模板适配准确,则确定所述表格信息对象作为识别结果,所述识别结果包括属性文本和商品行数信息。2.根据权利要求1所述的一种基于OCR的随货单识别校准方法,其特征在于,识别所述随货单中包含公司的关键文字块前,还包括:计算以所述随货单为参照的表格坐标和文字块位置坐标,将所述表格坐标与所述文字块位置坐标一一对应,得到校准好的所述随货单。3.根据权利要求1所述的一种基于OCR的随货单识别校准方法,其特征在于,若存在所述目标表格模板,还包括:获取若干属性文本在所述随货单表格的表头行中对应的第一属性列坐标,以及在所述目标表格模板的表头行中对应的第二属性列坐标,其中,所述属性文本包括批准文号、通用名、生产厂家、规格、生产日期、有效期、数量、生产批号、单价、产地;将若干所述属性文本的第二属性列坐标校准至与其对应的第一属性列坐标。4.根据权利要求3所述的一种基于OCR的随货单识别校准方法,其特征在于,将若干所述属性文本的第二属性列坐标校准至与其对应的第一属性列坐标后,还包括:判断所述随货单表格是否符合预设的模板适配条件,所述模板适配条件包括:所述随货单表格的属性文本一半以上与所述目标表格模板的属性文本一致,或者,所述随货单表格的属性文本三分之一以上与所述目标表格模板的属性文本一致,且所述属性文本中批准文号的第一属性列坐标与第二属性列坐标一致;若不符合,则根据获取的所述第一属性列坐标,构建对应的通用表格;将所述随货单...

【专利技术属性】
技术研发人员:张步镇陈峰陈奇吴勇彭国权王为关亚通
申请(专利权)人:广州药帮信息科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1