收据数据识别装置及其方法制造方法及图纸

技术编号:7898360 阅读:190 留言:0更新日期:2012-10-23 04:28
本发明专利技术涉及收据数据识别装置以及其方法,从各租户的店铺正确且高效率地收集营业额管理数据,谋求租户营业额管理业务的高速化、效率化。针对从收据图像中读取的识别字符,收据数据提取部(141)根据在按每个店铺而不同的定义数据中注册的收据内的项目名称的字符串和从收据内位置起的金额项目的位置数据提取识别字符,倾斜检测部(142)根据提取出的识别字符的位置数据检测出识别字符的倾斜,倾斜校正部(143)在检测出识别字符的倾斜的情况下,根据检测出的倾斜对相应的金额项目的位置数据进行校正,收据数据特别指定部(144)使用校正后的位置数据根据识别字符和位置数据提取出表示金额项目的识别字符,营业额管理数据生成部(15)根据与项目名称一致的识别字符和表示金额项目的识别字符输出或存储识别结果的数据。

【技术实现步骤摘要】

本专利技术涉及,特别涉及例如为了对大型购物中心等的多个店铺的营业额进行管理,从通过字符识别而读取的收据数据中正确地提取所需要的数据的技术。
技术介绍
在对在购物中心、大型购物中心等中开店的租户(运营店铺的公司等)的店铺进行管理的租户管理部门中,收集各店铺的一天的营业额,制作现金营业额、联票营业额,…等的营业额细目(营业额管理项目)。在该营业额细目制作时,收集从各店铺提供的细算收据,进行营业额管理项目的数值的计算。可是,现状是由于从各店铺提供的细算收据的形式依 赖于向每个店铺导入的POS系统,所以是以各种各样的形式制作的。因此,租户管理部门处理的细算收据在项目的种类、项目名、印字尺寸、印字字体等方面是多种多样的。例如,针对细算收据的项目名称,即使营业额合计、营业额计、合计营业额、总营业额、…等表示同等的内容,也会根据POS系统而印字出不同的名称。此外,由于开店的租户的店铺的更换等频繁地进行,所以也必须应对新的细算收据的形式。因此,现状是在租户管理部门中,在将细算收据作为统一的营业额数据进行总计的营业额总计作业中需要大量的劳动力,为此的人的以及时间上的负担需要巨大的成本。再有,在专利文献I中公开了文书图像识别装置。在该文书图像识别装置中,参照文书图像提取构成字符的成分的集合,基于此提取横和纵的行候补,对行候补估计可靠度。之后,基于估计的行可靠度,提取准确度高的行的集合,基于该结果,使用准确度高的行的集合的字符成分的配置来估计倾斜。然后,从构成文书图像的基础要素的集合中提取行方向确定的行集合,交替执行根据行彼此的关联的段提取和将段作为制约的行提取,提取出行和段。此外,在专利文献2中公开了收据处理装置。在该收据处理装置中,根据收据的图像识别字符来生成文本数据,从文本数据中选择规定的字符串,检测出包含有被选择的规定的字符串的行位置。然后,从基于检测出的行位置而确定的文本数据上的规定的行范围中依次选择以行为单位的行数据(line data),从行数据中提取出与品种相关的数据。专利文献 专利文献I :日本特开平11-219407号公报; 专利文献2 :日本特开2004-164218号公报。为了对上述那样的、从购物中心等的各店铺提供的细算收据(以下称为收据)进行总计,在运营购物中心等的公司(组织)的租户管理部门中,历来,事务员以目视来读取收据,以手工作业将读取的数据输入到数据处理装置中。该营业额总计作业的作业量由于店铺数有时也达到100个店铺以上,而且是每天必须进行的作业,因此负担非常大。作为用于减轻该负担的一个方案,考虑从各店铺的终端经由网络自动收集各店铺的营业额数据(收据数据)。可是,通常各店铺的企业实体不同,因此需要分别获得网络开设的承诺,进而存在通过被导入的系统而连接的网络种类、应用的追加/修正的难易度不同等的难以解决的问题。作为尽可能不进行已有的系统的变更、特别是各店铺的终端等信息设备的变更而减轻上述的作业负担的其它方案,可以考虑不是由人读取收据数据,而是通过字符图像的识别来进行读取的方法。S卩,例如通过具有0CR(Optical Character Recognition,光学字符识别)功能的读取装置、扫描仪等对各店铺的收据进行读取,针对读取的收据项目和其数值数据提取出营业额管理项目所需要的内容,重新输入成营业额管理数据的方法。可是,在该方法的情况下,也必须解决以通常的现有的字符图像识别不能解决的问题。接着,针对该问题进行说明。在通过具有OCR功能的读取装置等来读取收据的情况下,需要在将收据夹入透明、片材中、或粘贴在纸上等来进行固定的状态下使读取装置等进行读取。例如,被透明片材夹持的收据是细长的狭缝状的形式,在读入时,被夹持的细算收据(收据)有时相对于片材而产生倾斜。此外,有被片材等夹持的收据不是收据整体以固定的角度倾斜,而是从中途以其它的角度倾斜的情况。此外,在印字时,有时因为打印机的送纸偏离、调整不完备等,在收据的中途的行中,被印字的项目与其前面的行的项目相比空出空间、或具有倾斜。此外,有时也在收据的中途,纸的一部分被折弯地固定。图15是说明在收据的OCR处理中产生错误识别的例子的图。如图15所示那样,例如在收据22u是长的片材的情况下等,有时从收据上部221u起在收据下部222u的中途一部分纸弯曲地倾斜。在这样的状态下,在以读取装置来读取被片材夹持的收据22u并进行OCR处理的情况下,有时不是在收据项目中的项目名称和金额的对应是正确的对应关系的行中进行读取,而是项目名称和金额以不同的行的关系来进行读取。结果,有时将收据项目的金额错误识别为另外的收据项目的金额来对营业额进行总计。在图16 (A)中示出了收据项目的金额未被错误识别的情况的一个例子,在图16(B)中示出了收据项目的金额被错误识别的情况的一个例子。在图16 (A)示出了收据22v中的倾斜的收据下部222v。设从作为收据22v的基准的方向Lb起的倾斜的角度a I (相对于图示的虚线的角度)为收据项目的金额不被错误识别的范围。例如,与位于收据下部项目222v的收据项目名称“总营业额”(图中示出的Str#101)对应的金额项目Dat#101是“¥654,735”,通过OCR处理被正确地识别为“总营业额 ¥654,735”。另一方面,图16 (B)示出了细算收据22w中的倾斜的收据下部222w。设从作为收据22w的基准的方向Lc起的倾斜的角度a 2 (相对于图示的虚线的角度)为收据项目的金额被错误识别的范围。例如,与位于收据下部222w的收据项目名称“总营业额”(图中示出的Str#102)对应的金额项目Dat#102正确的应为“¥654,735”,但在此,根据OCR处理的结果被错误识别为“总营业额¥623,603”。该错误识别的原因是因为OCR处理结果的输出仅仅是各项目的字符串和它们的坐标信息,因此根据该坐标信息,与位于项目名称“总营业额”(Str#102)的下段的行的项目名称“纯营业额”对应的金额项目Dat#102的“623,603”起因于倾斜角度a 2的大小而被作为位于和收据项目名称“总营业额”相同的行的字符串进行识别。在相对于作为基准的方向,收据22整体为相同的倾斜角度的情况下,作为解决方案,在OCR处理中检测出收据22整体的倾斜角度,校正收据整体的行的倾斜,由此提取出正确的金额。可是,在图15所示的那样的情况下,在收据上部221u中倾斜角度较小、在从中途的部分起的收据下部222u中较大地倾斜的情况下,即使检测出收据22u整体倾斜的角度并校正,也不能适用于如图15所示那样的行的一部分为不同的倾斜的情况。如以上说明那样,在以读取装置等读取这样的收据22u、对收据的数值数据进行OCR处理的情况下,有时会处理与收据项目名称不对应的金额项目。由此,在营业额管理数据中产生总计误差。为了对其进行检查,需要以手工作业来核对细算收据的作业,人的负担未被减轻。
技术实现思路
本专利技术鉴于以上的方面,其目的在于不大幅度地改变各店铺的信息设备等的现 状的系统,而从各租户的店铺的收据中正确且高效率地收集营业额管理数据,谋求营业额管理业务的高速化、效率化。本专利技术的特征在于,为了例如将每个店铺印刷的收据重新总计为统一的营业额管理项目,针对读取收据图像而得到的识本文档来自技高网
...

【技术保护点】
一种收据数据识别装置,其特征在于,具备:图像数据存储部,存储通过对收据图像进行字符识别而得到的识别字符及其位置数据;定义数据存储部,存储定义数据,其中所述定义数据按收据中的成为读取对象的各项目名称的每一个,对在收据印字的项目名称的字符串、和从所述项目名称的收据内位置起的与该项目名称对应的金额项目的相对位置数据进行定义;收据数据提取部,从存储在所述图像数据存储部的识别字符中提取与在所述定义数据中定义的项目名称的字符串一致的识别字符;倾斜检测部,根据提取出的识别字符的位置数据,检测出识别字符的倾斜;倾斜校正部,在检测出识别字符的倾斜的情况下,根据检测出的倾斜对所述定义数据中的相应的金额项目的相对位置数据进行校正;收据数据特别指定部,使用校正后的相对位置数据,根据存储在所述图像数据存储部中的识别字符及其位置数据提取出表示所述金额项目的识别字符;以及数据生成部,根据与所述项目名称一致的识别字符和表示所述金额项目的识别字符,生成识别结果的数据,输出或存储识别结果的数据。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:野崎一成梅村泰广渡边起一郎羽佐田理惠铃木惇也
申请(专利权)人:株式会社富士通商务系统富士通计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1