基于关键字知识库的购物小票信息解析方法及系统技术方案

技术编号:29968722 阅读:18 留言:0更新日期:2021-09-08 09:41
本发明专利技术涉及文字识别技术领域,具体涉及一种基于关键字知识库的购物小票信息解析方法及系统,包括智能收银机、智能票据打印机和小票文本处理模块、小票信息解析模块和知识库扩充模块。实施包括以下步骤:步骤1:对小票文本进行处理,去除无效信息。步骤2:对处理好的小票文本,执行解析算法,得到解析报表。步骤3:提取新关键字,并放入关键字知识库中。本发明专利技术能够应对不同格式、不同文本的小票,避免为每种小票都设计单独的解析规则。基于关键字知识库,构建通用的小票解析流程,精准快速的提取订单信息。通过构建关键字知识库,提高了可扩展性;通过设计小票文本分区算法,提高了解析效率。效率。效率。

【技术实现步骤摘要】
基于关键字知识库的购物小票信息解析方法及系统


[0001]本专利技术涉及文字识别
,具体涉及一种基于关键字知识库的购物小票信息解析方法及系统。

技术介绍

[0002]近年来,人工智能逐渐成为全球科技和产业变革的重要驱动力,推动了商业智能的兴起和发展。商户购物小票信息解析(简称小票解析)是商业智能领域中比较重要的应用,近几年开始受到广泛关注。小票解析能够为各类商场、购物街和购物中心等汇总商户的订单和交易信息,并在商场经营分析、商场业态分布、商户租金方案等方面发挥着重要的作用。
[0003]在专利号为CN201910691300.1的中国专利技术专利文献中,公开了一种通用购物小票数据精准提取方法,包括如下步骤:S1、小票数据模型化;S2、模型分析;S3、关键词精准提取;S4、明细输出。其根据域结构体起止关键字,对小票数据进行快速划分切割,在数据域内进行数据的精确提取。但是购物小票的格式和文本纷繁复杂,现在的小票文字识别技术主要是针对特定的小票进行提取,存在泛化能力弱,可扩展性差,效率低等缺点。在实际场景下,部署、调试和维护成本较高。因此本文提出一种基于关键字知识库的购物小票信息解析方法及系统予以解决。

技术实现思路

[0004]针对现有技术的不足,本专利技术公开了一种基于关键字知识库的购物小票信息解析方法及系统,用于解决购物小票的格式和文本纷繁复杂,现在的小票文字识别技术主要是针对特定的小票进行提取,存在泛化能力弱,可扩展性差,效率低等缺点的问题。
[0005]本专利技术通过以下技术方案予以实现:
[0006]第一方面,本专利技术公开一种基于关键字知识库的购物小票信息解析方法,包括以下步骤:
[0007]S1获取小票文本信息,执行文本行过滤操作,去除空行、分隔符等无用行及各行的特殊符号;
[0008]S2根据关键字知识库,读取小票文本各分区对应的关键字,执行文本行标记,并将区域合并,得到小票各区域文本;
[0009]S3根据所要提取的信息,从关键字知识库中读取关键字,并根据权值或顺序,对读取的关键字进行排序;
[0010]S4根据所要提取的信息,选择对应分区的文本,并对所有关键字依次进行匹配,直到提取出信息为止;
[0011]S5对小票文本的各个分区执行步骤S4,得到所有订单信息,并生成解析报表;
[0012]S6从小票文本中获取没有行标记的文本行,并从中提取新关键字,并放入关键字知识库。
[0013]更进一步的,所述方法利用关键字对小票每行标记其所属分区,并将同一个分区的小票文本行进行汇集,得到分区结果。
[0014]更进一步的,所述关键字知识库包括有以下的一项或多项:关键字的序号id、关键字key、信息的提取规则pattern、关键字所对应的信息类型type、关键字所属分区group或关键字的权值或顺序weight。
[0015]更进一步的,所述关键字所属分区group包括有以下的一项或多项:小票头front、商品明细detail、支付信息payment、会员信息membership、小票尾rear。
[0016]更进一步的,所述解析报表包括有以下的一项或多项:订单编号order_no、下单时间order_time、订单金额pay_amount、支付方式pay_method、会员卡号vip_card_id、会员卡类型vip_card_type或收银员casher。
[0017]第二方面,本专利技术公开一种基于关键字知识库的购物小票信息解析系统,用于支撑实现第一方面所述的基于关键字知识库的购物小票信息解析方法,其包括智能收银机、智能票据打印机和小票文本处理模块、小票信息解析模块和知识库扩充模块。
[0018]更进一步的,所述智能收银机和智能票据打印机应用于商超、农贸、执法或工业等场景。
[0019]更进一步的,所述智能收银机将订单信息发送至智能票据打印机,由智能票据打印机通过网络调用算法,实现快速实时的小票解析。
[0020]更进一步的,所述小票信息解析模块包括分区算法子模块和解析算法子模块。
[0021]更进一步的,还包括云服务器,所述云服务器用于构建关键字知识库,同时部署小票文本处理模块、小票信息解析模块和知识库扩充模块。
[0022]本专利技术的有益效果为:
[0023]本专利技术能够应对不同格式、不同文本的小票,避免为每种小票都设计单独的解析规则。基于关键字知识库,构建通用的小票解析流程,精准快速的提取订单信息。通过构建关键字知识库,提高了可扩展性;通过设计小票文本分区算法,提高了解析效率。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本专利技术总体实施流程图;
[0026]图2是本专利技术实施例小票文本处理流程图;
[0027]图3是本专利技术实施例小票文本解析流程图;
[0028]图4是本专利技术实施例分区算法流程图;
[0029]图5是本专利技术实施例解析算法流程图;
[0030]图6是本专利技术实施例知识库扩充流程图;
[0031]图7是本专利技术实施例关键字知识库实例图;
[0032]图8是本专利技术实施例小票实例图;
[0033]图9是本专利技术实施例分区结果实例图;
[0034]图10是本专利技术实施例解析报表实例图。
具体实施方式
[0035]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]实施例1
[0037]本实施例公开一种基于关键字知识库的购物小票信息解析方法,包括以下步骤:
[0038]S1获取小票文本信息,执行文本行过滤操作,去除空行、分隔符等无用行及各行的特殊符号;
[0039]S2根据关键字知识库,读取小票文本各分区对应的关键字,执行文本行标记,并将区域合并,得到小票各区域文本;
[0040]S3根据所要提取的信息,从关键字知识库中读取关键字,并根据权值或顺序,对读取的关键字进行排序;
[0041]S4根据所要提取的信息,选择对应分区的文本,并对所有关键字依次进行匹配,直到提取出信息为止;
[0042]S5对小票文本的各个分区执行步骤S4,得到所有订单信息,并生成解析报表;
[0043]S6从小票文本中获取没有行标记的文本行,并从中提取新关键字,并放入关键字知识库。
[0044]本实施例利用关键字对小票每行标记本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键字知识库的购物小票信息解析方法,其特征在于,所述方法包括以下步骤:S1获取小票文本信息,执行文本行过滤操作,去除空行、分隔符等无用行及各行的特殊符号;S2根据关键字知识库,读取小票文本各分区对应的关键字,执行文本行标记,并将区域合并,得到小票各区域文本;S3根据所要提取的信息,从关键字知识库中读取关键字,并根据权值或顺序,对读取的关键字进行排序;S4根据所要提取的信息,选择对应分区的文本,并对所有关键字依次进行匹配,直到提取出信息为止;S5对小票文本的各个分区执行步骤S4,得到所有订单信息,并生成解析报表;S6从小票文本中获取没有行标记的文本行,并从中提取新关键字,并放入关键字知识库。2.根据权利要求1所述的基于关键字知识库的购物小票信息解析方法,其特征在于,所述方法利用关键字对小票每行标记其所属分区,并将同一个分区的小票文本行进行汇集,得到分区结果。3.根据权利要求1所述的基于关键字知识库的购物小票信息解析方法,其特征在于,所述关键字知识库包括有以下的一项或多项:关键字的序号id、关键字key、信息的提取规则pattern、关键字所对应的信息类型type、关键字所属分区group或关键字的权值或顺序weight。4.根据权利要求3所述的基于关键字知识库的购物小票信息解析方法,其特征在于,所述关键字所属分区group包括有以下的一项或多项:小票头front、商品明细detail、支付信息payment、会员信息membersh...

【专利技术属性】
技术研发人员:于兴兴朱亮梅娟曹颖
申请(专利权)人:深圳米开朗基罗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1