The invention relates to a method of bill recognition, which includes: S1 to establish the bill standard template library; S2 to pre identify bills; S3 to determine the bill type and bill standard template; S4 to analyze the pre identification result, if the analysis is successful, step S5 will be entered; if the analysis fails, output the result information of recognition failure and end the operation; S5 to standardize the bill image; S6 to formally identify Bill; S7, analyze bill elements; S8, verify and supplement bill element data, verify and supplement data according to the text characteristics of each bill element and the relationship between Bill elements; S9, output each bill element identified, and end this operation. The invention also discloses a bill recognition system. The invention discloses a method and system for bill identification, which supports multiple kinds of bill identification, simplifies the process of bill identification, improves the accuracy of bill identification, and provides a good foundation for enterprise informatization.
【技术实现步骤摘要】
一种票据识别的方法及系统
本专利技术涉及模式识别领域,具体是一种票据识别的方法及系统。
技术介绍
纸质票据是一种显示样式相对固定,数据项明确的纸质文件,如增值税发票、营业执照、金融票据、证照等。一般而言,同类票据具有相同的显示样式和数据项,且同一数据项的位置在不同票据中基本相同,在信息化系统中,纸质票据的输出大多是通过套打或打印模板实现。由于管理制度和机构之间信息化系统不兼容等原因,纸质票据作为业务凭证和数据传输的载体,在机构内部和机构之间广为使用。但是,由于纸质票据是面向人工阅读,缺少票据的数据项等结构化信息,导致大量纸质票据内的数据提取的工作必须依赖于人工。由于人工效率低下,无法快速处理大量的票据,对于纸质票据的接收方而言,如何通过图像识别技术将票据进行快速结构化、避免重复数据录入已经成为机构信息化的关键。纸质票据的识别与传统文档识别的主要差别是不仅需要识别纸质票据上的文本,还需要识别出票据的各个数据项值,从而将纸质票据进行结构化。现有的票据识别方法大多是针对特定的票据类型,通过经验或机器学习等方式预先建立本类型的票据模板,票据模板包括票据的标准图像大小及各数据项在标准图像中的相对位置,然后将票据模板应用于新的票据图像,识别出图像中的各数据项位置对应的文本。该方法存在以下问题:第一,适应性不强,目前的票据识别大多针对单一的票据类型,无法支持其他的票据类型;第二,对数字化图像要求高,要求票据的图像能符合标准化的要求,大多数票据识别软件要求使用专用的扫描仪或其他专用设备;第三,基于位置定位的方式适应性较差,由 ...
【技术保护点】
1.一种票据识别的方法,其特征在于,具体步骤如下:/nS1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;/n每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;/n所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:/n所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;/n所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;/n所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;/nS2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:/n预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;/nS3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分 ...
【技术特征摘要】 【专利技术属性】
1.一种票据识别的方法,其特征在于,具体步骤如下:
S1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;
每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;
所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:
所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;
所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;
所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;
S2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:
预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
S3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
S4、解析预识别结果,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入步骤S5,如果获取失败,则输出识别失败的结果信息并结束本次操作;
S5、标准化票据图像,根据预识别结果中票据原始图像方向、参照要素在票据原始图像上的位置和大小及参照元素在票据标准图像中的位置和大小,将票据原始图像转换为与票据标准图像方向、大小相同,且参照元素在转换后图像中的位置、大小与其在标准票据图像的位置、大小一致的图像,完成后进入步骤S6;
S6、正式识别票据,将标准化后的票据图像提交给识别引擎进行正式识别得到正式识别的结果,然后进入步骤S7,其中:
正式识别的结果包括识别出的字符列表及各字符在标准化图像中的位置和大小;
S7、解析票据要素,从正式识别结果中逐个解析出票据要素的值,解析完成后进入步骤S8,其中:
解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
S8、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入步骤S9;
S9、输出识别的各票据要素,结束本次操作。
2.一种票据识别的方法,其特征在于,具体步骤如下:
S1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;
每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;
所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:
所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;
所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;
所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;
S2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:
预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
S3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
S4、解析预识别结果,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入步骤S5,如果获取失败,则输出识别失败的结果信息并结束本次操作;
S5、根据步骤S2和步骤S4中预识别结果中图像方向、参照要素在票据原始图像上的位置和大小及其在票据标准图像中的位置和大小,通过各字符坐标的旋转、缩放和平移变换,将步骤S2中预识别结果中的各字符在当前图像中的坐标转换为标准图像中的坐标,得到正式识别的结果,然后进入步骤S6;
S6、解析票据要素,从正式识别结果中逐个解析出票据要素的值,解析完成后进入步骤S7,其中:
解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
S7、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入步骤S8;
S8、输出识别的各票据要素,结束本次操作。
3.根据权利要求1所述的一种票据识别的方法,其特征在于,当识别引擎的预识别结果中图像角度不能支持任意角度时,步骤S5中进行旋转变换后根据预识别结果中参照要素首个字符纵向位置和末尾字符纵向位置之差与参照要素的水平宽度之比计算出需要进行微调的角度,然后进行小角度的旋转。
4.根据权利要求1所述的一种票据识别的方法,其特征在于,步骤S7中解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
5.根据权利要求1~4任意一项所述的一种票据识别的方法,其特征在于,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
6.根据权利要求5所述的一种票据识别的方法,其特征在于,标准票据模板中使用发票标题行作为备用的参照要素,步骤S4中若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入步骤S5,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:
发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
技术研发人员:夏子国,王绪胜,陈雪原,张启峰,安云生,吴俊飞,张鹏,李国权,聂广楠,刘蕾,刘宁,姚涛,
申请(专利权)人:北京中海汇银财税服务有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。