收据数据识别装置及其方法制造方法及图纸

技术编号:7898345 阅读:176 留言:0更新日期:2012-10-23 04:28
本发明专利技术涉及收据数据识别装置及其方法,其正确且高效率地从各租户的店铺收集营业额管理数据,谋求租户营业额管理业务的高速化、效率化。针对从收据图像读取的识别字符,收据数据提取部(141)提取与在按每个店铺而不同的定义数据中注册的项目名称的字符串一致的识别字符,同一名称判定部(140)在与提取的识别字符相应的项目名称在定义数据中被定义为在收据内存在具有同一项目名称的其它字符串的情况下,取得与在定义数据中注册的锚点字符或者多个关键词一致的识别字符的位置,收据数据特别指定部(144)使用该位置和提取的识别字符的位置提取表示金额项目的识别字符,营业额管理数据生成部(15)根据与项目名称一致的识别字符和表示金额项目的识别字符输出或存储识别结果的数据。

【技术实现步骤摘要】

本专利技术涉及,特别涉及例如为了对大型购物中心等的多个店铺的营业额进行管理,从通过字符识别而读取的收据数据中正确地提取所需要的数据的技术。
技术介绍
在对在购物中心、大型购物中心等中开店的租户(运营店铺的公司等)的店铺进行管理的租户管理部门中,收集各店铺的一天的营业额,制作现金营业额、联票营业额,…等的营业额细目(营业额管理项目)。在该营业额细目制作时,收集从各店铺提供的细算收据,进行营业额管理项目的数值的计算。可是,现状是由于从各店铺提供的细算收据的形式依赖于向每个店铺导入的POS系统,所以是以各种各样的形式制作的。因此,租户管理部门处 理的细算收据在项目的种类、项目名、印字尺寸、印字字体等方面是多种多样的。例如,针对细算收据的项目名称,即使营业额合计、营业额计、合计营业额、总营业额、…等表示同等的内容,也会根据POS系统而印字出不同的名称。此外,由于开店的租户的店铺的更换等频繁地进行,所以也必须应对新的细算收据的形式。因此,现状是在租户管理部门中,在将细算收据作为统一的营业额数据进行总计的营业额总计作业中需要大量的劳动力,为此的人的以及时间上的负担需要巨大的成本。再有,在专利文献I中公开了文书图像识别装置。在该文书图像识别装置中,参照文书图像提取构成字符的成分的集合,基于此提取横和纵的行候补,对行候补估计可靠度。之后,基于估计的行可靠度,提取准确度高的行的集合,基于该结果,使用准确度高的行的集合的字符成分的配置来估计倾斜。然后,从构成文书图像的基础要素的集合中提取行方向确定的行集合,交替执行根据行彼此的关联的段提取和将段作为制约的行提取,提取出行和段。此外,在专利文献2中公开了收据处理装置。在该收据处理装置中,根据收据的图像识别字符来生成文本数据,从文本数据中选择规定的字符串,检测出包含有被选择的规定的字符串的行位置。然后,从基于检测出的行位置而确定的文本数据上的规定的行范围中依次选择以行为单位的行数据(line data),从行数据中提取出与品种相关的数据。专利文献 专利文献I :日本特开平11-219407号公报; 专利文献2 :日本特开2004-164218号公报。为了对上述那样的、从购物中心等的各店铺提供的细算收据(以下称为收据)进行总计,在运营购物中心等的公司(组织)的租户管理部门中,历来,事务员以目视来读取收据,以手工作业将读取的数据输入到数据处理装置中。该营业额总计作业的作业量由于店铺数有时也达到100个店铺以上,而且是每天必须进行的作业,因此负担非常大。作为用于减轻该负担的一个方案,考虑从各店铺的终端经由网络自动收集各店铺的营业额数据(收据数据)。可是,通常各店铺的企业实体不同,因此需要分别获得网络开设的承诺,进而存在通过被导入的系统而连接的网络种类、应用的追加/修正的难易度不同等的难以解决的问题。作为尽可能不进行已有的系统的变更、特别是各店铺的终端等信息设备的变更而减轻上述的作业负担的其它方案,可以考虑不是由人读取收据数据,而是通过字符图像的识别来进行读取的方法。S卩,例如通过具有0CR(Optical Character Recognition,光学字符识别)功能的读取装置、扫描仪等对各店铺的收据进行读取,针对读取的收据项目和其数值数据提取出营业额管理项目所需要的内容,重新输入成营业额管理数据的方法。可是,在该方法的情况下,也必须解决以通常的现有的字符图像识别不能解决的问题。接着,针对该问题进行说明。在通过具有OCR功能的读取装置等来读取收据的情况下,为了合计营业额管理数据而预先注册在所需要的收据印字的收据项目与营业额管理项目的对应关系,需要从由读取装置等读取的收据图像提取所需要的收据项目。例如,按照图16和图17,在以下说明该情况下的不能解决的问题。图16和图17是说明收据项目与营业额管理项目的对应关系的一例的图。特别是在图16中,示出了在收据内在收据项目的项目名称中不存在同一名称的情况下的例子,在图17中示出在收据内在收据项目的项目名称(收据项目名称)中存在多个同一名称的情况下的例子。例如,如图16所示,在印字的收据22u中,与营业额管理项目IOOlu的“总营业额”对应的收据项目名称“总营业额”仅印字在收据22u内的行Line#101中。此外,同样地,与营业额管理项目IOOlu的“商品券”对应的收据项目名称“商品券”仅印字在收据22u内的行Line#102中。关于与营业额管理项目IOOlu的其它的“信用营业额”以及“消费税”对应的收据项目名称,“信用”和“税合计”分别仅印字在收据22u内的行Line#103和行Line#104中。即,在图16所示的收据22u中,针对成为营业额管理项目的对象的收据项目,不存在同一名称的收据项目名称。另一方面,在图17所示的收据22v中,与营业额管理项目IOOlv的“总营业额”对应的收据项目名称“总营业额”被印字在收据22v内的行Line#201、#204、#206的多个处所(不同的行)。此外,与营业额管理项目IOOlv的“商品券”对应的收据项目名称“商品券现额”仅印字在收据22v内的行Line#202中。针对营业额管理项目IOOlv的“信用营业额”,在收据22v内的行Line#203、#205、#207中以“信用现额”的名称印字在多个处所(3处)。即,在图17所示的收据22v中,针对成为营业额管理项目的对象的收据项目,存在多个同一名称的收据项目名称。再有,设与营业额管理项目IOOlv的“消费税”对应的收据项目名称没有印字在收据22v中。在图17中,与作为营业额管理项目本来应该提取的收据项目名称对应的金额项目,是组G#1的行Line#201 203中的金额项目。组G#2和G#3的行Line#204 207中的“总营业额”和“信用现额”表示店铺内的每个负责人组的细目,这不是租户管理部门作为营业额管理项目所需要的收据项目。在存在多个收据项目名称为同一名称、并且金额内容不同的内容的情况下,例如在图17所示的收据22v中作为多个段落的每一个的小计而被印字,作为与营业额管理项目IOOlv的“总营业额”对应的收据项目名称“总营业额”,仅以利用OCR处理的字符识别不能与其中的应该提取的收据项目进行区别。即,仅以收据项目名称,、不能够判断是否是作为营业额管理项目应该提取的收据数据。为了对它们进行区别,例如考虑使用将上端的收据印字位置作为基准的位置数据。可是,在使用将固定位置作为基准的位置数据的情况下,不能够应对如下的POS系统,即,其根据当日的收据的印字内容,产生空行、多个收据项目的增减那样的位置数据变化的POS系统。实际上,在各店铺的细算收据中,根据当日的印字内容,产生空行、多个收据项目的增减的情况较多。如上所述,在印字在收据的收据项目名称中,存在多个同一名称并且是其分别对应的金额是不同内容的金额项目的情况下,当以读取装置等读取这样的收据、对收据的数值数据进行OCR处理时,有时将与本来应该提取的收据项目名称不对应的金额项目提取并进行处理,在营业额管理数据中产生总计错误。为了回避这样的情况,上述那样的存在同一名称的收据项目那样的店铺的细算收据必须以手工作业对营业额管理项目进行总计,此外在像这样以手工作业进行总计的情况下,由于是同一名称,所以本文档来自技高网...

【技术保护点】
一种收据数据识别装置,其特征在于,具备:图像数据存储部,存储通过对收据图像进行字符识别而获得的识别字符及其位置数据;定义数据存储部,存储定义数据,所述定义数据按收据中的成为读取对象的各项目名称的每一个,定义了:在收据印字的项目名称的字符串、表示在收据内是否存在具有同一项目名称的其它字符串的信息、在收据内存在具有同一项目名称的其它字符串的情况下将所述项目名称和收据印字位置关联起来的作为其它的项目名称的字符串的锚点字符、以及所述项目名称的字符串和所述锚点字符间的距离的信息;收据数据提取部,从在所述图像数据存储部中存储的识别字符中提取与在所述定义数据中定义的项目名称的字符串一致的识别字符;同一名称判定部,在与提取的识别字符相应的项目名称在所述定义数据中被定义为在收据内存在具有同一项目名称的其它字符串的情况下,取得与对应的所述锚点字符一致的识别字符的位置,计算该位置与所述提取的识别字符的位置的距离;收据数据特别指定部,在与所述提取的识别字符相应的项目名称在所述定义数据中被定义为在收据内存在具有同一项目名称的其它字符串的情况下,比较所述计算出的距离和在所述定义数据中定义的距离的信息,将最近距离的识别字符作为读取对象的项目名称进行特别指定,在与所述提取的识别字符相应的项目名称在所述定义数据中被定义为在收据内不存在具有同一项目名称的其它字符串的情况下,将所述提取的识别字符作为读取对象的项目名称进行特别指定;以及数据生成部,根据所述读取对象的项目名称和表示与该项目名称一致的识别字符所对应的金额项目的识别字符,生成识别结果的数据,输出或存储识别结果的数据。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:野崎一成梅村泰广渡边起一郎羽佐田理惠铃木惇也
申请(专利权)人:株式会社富士通商务系统富士通计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1