票据识别方法及装置制造方法及图纸

技术编号:23099822 阅读:24 留言:0更新日期:2020-01-14 20:44
本发明专利技术公开了一种票据识别方法及装置,该方法包括:获取待识别票据的OCR识别结果,其中,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;将相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。本发明专利技术能够提高对多样化票据识别的准确率,满足更多应用场景的票据识别要求。

Bill identification method and device

【技术实现步骤摘要】
票据识别方法及装置
本专利技术涉及图像处理领域,尤其涉及一种票据识别方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。票据,作为企业财务核算的原始凭据,须进行电子化处理,才能实现数字流动。传统的人工录入方式,企业往往需要投入大量的人力成本和时间成本,不仅增加了运营成本,而且录入速度难以提升,经常容易出现错误。随着光学识别字符(OpticalCharacterRecognition,OCR)技术的快速发展和广泛应用,票据识别效率大大提高。OCR识别技术作为一种高效率、低成本的数据采集方案,为企业业务快速发展提供了有力支撑。由于OCR识别技术无法实现百分之百的识别准确率,一些OCR后处理方法相继出现。现有的OCR后处理方法,以通用语料库为基础,经过N-Gram语言模型、上下文无关模型、N-POS模型和基于决策树的语言模型等技术,对OCR识别后的文字进行后处理。这种基于通用语料库的OCR识别方法,对通用票据的识别准确率能起到一定的提升作用,但难以满足一些专用票据的识别后处理。例如,银行在办理业务过程中,会产生大量的票据。为了实现将这些数量巨大、种类繁多的纸质票据电子化存储,需要进行票据扫描、数据录入、人工校对等工作,OCR票据识别发挥了巨大的作用。相对于传统的手工录入方式来说,OCR票据识别的智能录入具有强大的优势,其识别速度远快于手工录入,节省了大量人力资源,优化资源配置,使人员分配于更加有意义的工作。但是,由于一些大型银行经营范围较广,在办理业务过程中,会产生种类繁多的票据。票据种类的多样化,不仅会增加OCR的识别难度,而且一些新增票据字段内容可能没有纳入通用语料库中,会导致OCR识别错误。另外,对于某一字段,如果通用语料库中存储的字段内容与银行定义的字段内容不一致,也会导致OCR识别出现错误。由此,现有技术中急需一种票据识别方法,在提高票据识别效率的同时,能够满足更多应用场景的票据识别要求,提高多样化票据识别准确率。
技术实现思路
本专利技术实施例提供一种票据识别方法,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该方法包括:获取待识别票据的OCR识别结果,其中,待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果本专利技术实施例还提供一种票据识别装置,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该装置包括:票据OCR识别单元,用于获取待识别票据的OCR识别结果,其中,待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;数据元组获取单元,用于根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;数据相似度计算单元,用于根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;数据相似度比对单元,用于将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;票据识别结果生成单元,用于根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。本专利技术实施例还提供一种计算机设备,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的票据识别方法。本专利技术实施例还提供一种计算机可读存储介质,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该计算机可读存储介质存储有执上述票据识别方法的计算机程序。本专利技术实施例中,在采用OCR技术对待识别票据进行识别,并得到待识别票据的OCR识别结果后,获取OCR识别结果中各个票据元素对应的数据元组,由于每个票据元素的数据元组中包含每个票据元素中相应字段的真实数据,根据每个票据元素中各个字段的数据识别结果与对应数据元组中相应字段的真实数据,计算计算每个票据元素与对应各个数据元组的相似度,进而将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。通过本专利技术实施例,能够提高基于通用语料库的OCR识别方法对多样化票据识别的准确率,满足更多的应用场景的票据识别要求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本专利技术实施例中提供的一种票据识别方法流程图;图2为本专利技术实施例中提供的一种票据识别装置示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。如本申请
技术介绍
部分介绍的内容可知,现有基于通用语料库的OCR识别方法,对多样化票据的识别准确率较低。专利技术人经研究发现,随着银行电子化程度的提升,银行各种票据的相关字段均有电子化存档数据,由此,本专利技术实施例利用这些票据字段对应的电子化存档数据,对票据OCR识别结果进行后处理,能够提高票据识别的准确率,且能够满足更多应用场景的票据识别要求。本专利技术实施例中提供了一种票据识别方法,图1为本专利技术实施例中提供的一种票据识别方法流程图,如图1所示,该方法包括如下步骤:S101,获取待识别票据的OCR识别结果,其中,待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果。需要说明的是,上述待识别票据可以是任意一种纸质票据,包括但不限于如下任意一种:专用票据、专用支票、提单等票据;由于票据识别的工作主要是识别票据中包含的各个字段对应的数据,而票据中很多字段之间具有关联关系,因而本文档来自技高网
...

【技术保护点】
1.一种票据识别方法,其特征在于,包括:/n获取待识别票据的OCR识别结果,其中,所述待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,所述OCR识别结果包含所述待识别票据中每个票据元素包含的各个字段的数据识别结果;/n根据所述OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;/n根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;/n将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;/n根据所述待识别票据中各个票据元素的识别结果,生成所述待识别票据的识别结果。/n

【技术特征摘要】
1.一种票据识别方法,其特征在于,包括:
获取待识别票据的OCR识别结果,其中,所述待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,所述OCR识别结果包含所述待识别票据中每个票据元素包含的各个字段的数据识别结果;
根据所述OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;
根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;
将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;
根据所述待识别票据中各个票据元素的识别结果,生成所述待识别票据的识别结果。


2.如权利要求1所述的方法,其特征在于,根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度,包括:
根据每个票据元素包含的每个字段的数据识别结果与对应各个数据元组中相应字段的真实数据,计算每个票据元素包含的每个字段与对应各个数据元组中相应字段的相似度;
将每个票据元素包含的各个字段与对应各个数据元组中相应字段的相似度之和,确定为每个票据元素与对应各个数据元组的相似度。


3.如权利要求1所述的方法,其特征在于,在根据所述OCR识别结果,获取每个票据元素对应的多个数据元组之前,所述方法还包括:
根据所述OCR识别结果中每个票据元素包含的各个字段,从多个电子化系统中采集各个字段对应的多个真实数据;
根据各个字段对应的多个真实数据,生成每个票据元素对应的多个数据元组。


4.如权利要求1至3任一项所述的方法,其特征在于,获取待识别票据的OCR识别结果,包括:
采集所述待识别票据的票据图像;
采用OCR识别算法识别所述票据图像,得到所述待识别票据的OCR识别结果。


5.一种票据识别装置,其特征在于,包括:
票据OCR识别单元,用于获取待识别票据的OCR识别结果,其中,所述待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关...

【专利技术属性】
技术研发人员:丁平杨春明郭铸
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1