一种基于扫描仪混扫的票据识别方法及系统技术方案

技术编号:19389593 阅读:30 留言:0更新日期:2018-11-10 02:17
本发明专利技术提供一种基于扫描仪混扫的票据识别方法,其包括以下步骤:S1、智能识别系统对多种类型的票据进行学习后,对各类型的票据的关键信息进行存储,建立票据关键信息数据库;S2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正;S3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,S4、对无法识别类或税务局查验错误的发票经图像处理后进行二次识别。本发明专利技术不需要人工手工输入,不用整理票据类型,大大提高了效率和正确率,节约了成本和时间,解放了人力。

A bill recognition method and system based on scanner mixing

The invention provides a bill recognition method based on scanner scanning, which includes the following steps: S1, intelligent recognition system, after learning various types of bills, stores the key information of each type of bills and establishes the key information database of bills; S2, scanning various mixed bills into electricity through scanner. Subversion images are uploaded to the intelligent recognition system to obtain keywords. For tilted and rotated images, the intelligent recognition system automatically recognizes and corrects them. S3. Comparing the obtained electronic images with the stored key information or keywords according to the scanned information, obtains the ticket type of the bill. S4. Unrecognizable The wrong invoice is checked by the class or the Inland Revenue Department for two times after image processing. The invention does not need manual input and does not need to sort out bill types, greatly improves efficiency and accuracy, saves cost and time, and liberates manpower.

【技术实现步骤摘要】
一种基于扫描仪混扫的票据识别方法及系统
本专利技术涉及票据识别方法
,具体地涉及一种基于扫描仪混扫的票据识别方法及系统。
技术介绍
随着我国税制结构营改增的实施,现在增值税是我国当前最为重要的流转税税种,增值税的征税范围从原来覆盖的大部分第二产业,到现在进一步覆盖到第二、三产业的绝大部分行业。现在增值税的征收管理更加严格,同时增值税发票量大量增多,手工录入太慢和查验真假非常耗时,且效率低下,错误率高。同时更多种类的票据也存在着这样的问题,比如各种银行回单,机打发票,火车票,定额发票等等都是传统手工录入。而企业财务人员在完成票据的认证抵扣后,还需要行单据扫描、数据录入、人工校对等工作。传统的人工录入方式,用户需要投入大量的人力成本和时间成本,不仅抬高了运营成本,而且录入速度难以提升,错误率难以降低,对提高业务处理时效、提升企业服务品质带来很多负面影响。但是只识别一种票据也不符合现实中的使用情况,通常企业会有多种票据需要入账,比如增值税票据,机打发票,定额发票火车票,银行票据等等。因此利用现代信息技术手段开发出一款混扫票据识别的系统势在必行。
技术实现思路
为了克服现有技术的缺陷,本专利技术提供一种基于扫描仪混扫的票据识别方法及系统,对多种类型票据混合扫描进行识别且识别率非常高,节省人力成本和时间成本提高效率。具体地,本专利技术提供一种基于扫描仪混扫的票据识别方法,其包括以下步骤:S1、智能识别系统对多种类型的票据进行学习后,对各类型的票据的关键信息进行存储,识别各类型票据不同的关键信息并为银行票据、机打发票、火车票以及定额发票定义关键字,通过在扫描票据过程中不断学习存储,建立票据关键信息数据库,票据关键信息数据库包括识别顺序列表、关键字列表、关键信息列表以及对应的票据类型列表,关键字列表、关键信息列表以及对应的票据类型列表是一一对应的,票据关键信息数据库如下表格所述:S2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正;S3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,对比顺序按照识别顺序列表的顺序进行,如果票据类型为增值税发票,则进行查验,如查验成功,则将查验结果返回至智能识别终端进行显示,如查验失败,则将该发票归为查验错误类;如果票据类型为增值税发票之外的发票类型,则将该发票的发票类型直接返回至智能识别终端进行显示,如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果;S4、对无法识别类或查验错误类的发票经图像处理后进行二次识别,所述图像处理的方法根据无法识别的具体原因进行确定,其具体包括锁定关键信息位置,根据像素点的坐标进行切块、消除红章、去除线条或对残缺的数字进行机器学习训练;S5、在对无法识别类或查验错误类的发票二次识别后,重复步骤S1-S3,获取最终的票据类型以及该票据类型对应的关键信息。优选地,步骤S3具体包括以下步骤:S31、对得到的电子版图像直接提取关键信息,如果能直接提取到关键信息则首先将扫描得到的关键信息与票据关键信息数据库中存储的关键信息列表中的增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票的关键信息列进行对比,如果该发票属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行查验,如查验成功则返回发票类型及该发票类型对应的关键信息,如查验失败,则将该发票归为查验错误类并返回发票类型及对应的关键信息;如果该发票不属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行关键字提取并根据提取到的关键字获取该关键字对应的关键信息并进入步骤S32;S32、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的银行票据的关键字列进行对比,如果该发票属于银行票据,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于银行票据,则进入步骤S33;S33、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的机打发票的关键字列进行对比,如果该发票属于机打发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于机打发票,则进入步骤S34;S34、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的火车票的关键字列进行对比,如果该发票属于火车票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于火车票,则进入步骤S35;S35、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的定额发票的关键字列进行对比,如果该发票属于定额发票,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于定额发票,则进入步骤S36;S36、如果无法识别该发票的发票类型,则将所述无法识别发票类型的发票归为无法识别类并返回识别结果。优选地,对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。优选地,对于容易识别错误的数字进行学习具体包括以下步骤:预处理:找到图像的ROI部分子图像并进行大小的归一化处理;特征提取,将图像转化为特征向量;分类识别,采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作,对容易识别错误的数字进行精确识别。优选地,所述特征提取的具体步骤为:将图片打开之后,进行降噪处理,然后将其灰度化,最后设置一个阙值将其二值化保存到一个32*32的数组中,每一个点是一个像素值,将这1024(32*32)个数值,转换成(1,1024)的向量。优选地,S3中进行增值税发票进行查验的方法为将关键字发送至国家税务总局全国增值税发票查验平台查验真伪。优选地,一种基于扫描仪混扫的票据识别系统,其包括扫描装置、识别终端以及智能识别系统,所述扫描装置和识别终端分别与所述智能识别系统通讯连接,所述智能识别系统包括图片处理单元,用于对图片进行处理;关键信息提取单元,用于根据相关算法对图片进行关键信息提取;识别单元,用于根据关键信息进行票据识别,获得票据类型;查验单元,用于对增值税发票进行查验;通讯单元,用于与所述智能终端进行通讯。优选地,还包括机器学习单元,用于对残缺的数字进行机器学习训练具体为对于容易识别错误的数字进行学习,容易识别错误的数字包括6和8,1和0,5和9以及2和0。与现有技术相比,本专利技术具有以下有益效果:本专利技术采用的智能识别系统能够实现扫描仪混合扫描票据,不需要人工手工输入,不用整理票据类型,企业财务人员不用在完成票据的认证抵扣后,还需要行单据扫描、数据录入、人工校对等工作,大大提高了效率和正确率,节约了成本和时间,解放了人力。本专利技术与现有技术相比,最大的飞跃是实现了扫描仪的混合扫描识别,不是针对单一的某一种票据识别,识别的种类更加丰富,更加智能,节约了时间成本,提高了效率,其次识别正确率的大大提升,对于第一次识别为票面整张进行识别,对于倾斜和旋转的图片,智能识别系统能够自动识别并校正,对识别识别有误的票据,本文档来自技高网...

【技术保护点】
1.一种基于扫描仪混扫的票据识别方法,其特征在于:其包括以下步骤:S1、智能识别系统对多种类型的票据进行自动识别和智能分析学习后,对各类型的票据的关键信息进行存储,识别各类型票据不同的关键信息并为银行票据、机打发票、火车票以及定额发票定义关键字,通过在扫描票据过程中不断训练存储,建立票据关键信息数据库,票据关键信息数据库包括识别顺序列表、关键字列表、关键信息列表以及对应的票据类型列表,关键字列表、关键信息列表以及对应的票据类型列表是一一对应的,票据关键信息数据库如下表格所述:

【技术特征摘要】
1.一种基于扫描仪混扫的票据识别方法,其特征在于:其包括以下步骤:S1、智能识别系统对多种类型的票据进行自动识别和智能分析学习后,对各类型的票据的关键信息进行存储,识别各类型票据不同的关键信息并为银行票据、机打发票、火车票以及定额发票定义关键字,通过在扫描票据过程中不断训练存储,建立票据关键信息数据库,票据关键信息数据库包括识别顺序列表、关键字列表、关键信息列表以及对应的票据类型列表,关键字列表、关键信息列表以及对应的票据类型列表是一一对应的,票据关键信息数据库如下表格所述:S2、通过扫描仪将各种混合票据扫描成为电子版图像,上传至智能识别系统获取关键字,对于倾斜和旋转的图片,智能识别系统自动识别并校正;S3、对得到的电子版图像根据扫描得到的信息与存储的关键信息或关键字进行比对,获取该票据的票据类型,对比顺序按照识别顺序列表的顺序进行,如果票据类型为识别顺序列表中第一类和第二类的发票,则进行查验,如查验成功,则将查验结果返回至智能识别终端进行显示,如查验失败,则将该发票归为查验错误类;如果票据类型为第一类和第二类的发票之外的发票类型,则将该发票的发票类型直接返回至智能识别终端进行显示,如果无法识别该发票的发票类型,则将该无法识别发票类型的发票归为无法识别类并返回识别结果;S4、对无法识别类或查验错误类的发票经图像处理后进行二次识别,所述图像处理的方法根据无法识别的具体原因进行确定,图形处理的具体方法包括锁定关键信息位置,根据像素点的坐标进行切块、消除红章、去除线条或对残缺的数字进行机器学习训练;S5、在对无法识别类或查验错误类的发票二次识别后,重复步骤S1-S3,获取最终的票据类型以及该票据类型对应的关键信息。2.根据权利要求1所述的基于扫描仪混扫的票据识别方法,其特征在于:步骤S3具体包括以下步骤:S31、对得到的电子版图像直接提取关键信息,如果能直接提取到关键信息则首先将扫描得到的关键信息与票据关键信息数据库中存储的关键信息列表中的增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票的关键信息列进行对比,如果该发票属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行查验,如查验成功则返回发票类型及该发票类型对应的关键信息,如查验失败,则将该发票归为查验错误类并返回发票类型及对应的关键信息;如果该发票不属于增值税普通发票、卷式发票、增值税电子普通发票、机动车销售统一发票或增值税专用发票中的一类,则进行关键字提取并根据提取到的关键字获取该关键字对应的关键信息并进入步骤S32;S32、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的银行票据的关键字列进行对比,如果该发票属于银行票据,则根据关键字识别关键字中包含的关键信息,返回票据类型及对应的关键信息,如果该发票不属于银行票据,则进入步骤S33;S33、将提取到的关键字与票据关键信息数据库中存储的关键字列表中的机打发票的关键字列进行对比,如果...

【专利技术属性】
技术研发人员:李小英王卓静张帅
申请(专利权)人:北京大账房网络科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1