凭证图像识别方法及装置制造方法及图纸

技术编号:15330456 阅读:127 留言:0更新日期:2017-05-16 13:55
本发明专利技术公开了一种凭证图像识别方法及装置,该方法包括读取凭证图像并进行光学字符识别;提取凭证图像的特征信息,判断凭证图像是否与固定结构的模板匹配,如是,则提取凭证图像中的特征元素的数据;否则,进一步判断凭证图像是否为特定分类的凭证,如是,将凭证图像与该分类的弹性模板匹配,并识别凭证图像中的特征元素,提取特征元素的数据;否则,将凭证图像的特征信息遍历所有模板,并查找到最匹配的模板后识别凭证图像中的特征元素,提取凭证图像中的特征元素的数据。该装置包括学字符识别模块、固定结构模板判断模块、分类判断模块以及遍历模块,用于实现上述的图像识别方法。本发明专利技术能够快速、准确地识别各种凭证图像。

Credential image recognition method and apparatus

The invention discloses a device and a document image recognition method, the method includes reading the document image and optical character recognition; feature extraction of image information documents, to determine whether the image document matching, and the fixed structure template is to extract feature elements in the image document data; otherwise, further judgment document image whether the specific classification of documents, such as, matching the elastic template document images and the classification and identification of characteristic elements, vouchers in the image, feature extraction of data element; otherwise, the traversal of all the image feature information of document templates, and find the best matching template in the image feature recognition element certificate. Feature extraction in image data of the document element. The device comprises a learning character recognition module, a fixed structure template judging module, a classification judging module and an ergodic module, and is used for realizing the above image recognition method. The invention can quickly and accurately identify various document images.

【技术实现步骤摘要】
凭证图像识别方法及装置
本专利技术涉及图像自动识别领域,尤其涉及一种对各种凭证进行光学字符识别后对凭证的内容进行识别的方法以及实现这种方法的装置。
技术介绍
人们在日常的消费过程中,往往产生大量的凭证,如乘坐飞机,将会有登机牌或者航程单,乘坐火车或汽车会有火车票或者汽车票,到餐馆吃饭可以获得餐饮发票等,这些凭证都是财务报销的依据,因此,如人们在差旅过程中产生这些凭证,在差旅结束后需要将这些凭证交给财务部门,由财务部门核实并且予以报销。由于凭证种类众多,且每一张凭证均包含大量的数据,以火车票为例,凭证上包括乘车日期、乘客姓名、车次号、乘车日期与时间、座号、乘客身份证号码、金额等,报销时往往需要将这些信息录入到报销系统中。如果人工地将这些信息录入系统,工作量将非常巨大。此外,在人数众多的企业,差旅报销的凭证数量巨大,如每一张凭证均人工录入,将严重影响财务部门的工作量。为此,人们开发出基于光学字符识别(OCR,opticalcharacterrecognition)的凭证图像识别系统,即通过光学字符识别技术将凭证上的字符识别出来,将识别出来的字符自动填写到报销系统相应的栏目上,从而避免人工输入凭证信息。使用这种系统时,需要通过拍摄装置将凭证拍照,然后使用报销系统对拍摄的凭证图像进行光学字符识别,从而获取相应的信息。目前普遍的基于光学字符识别的报销系统都只能识别出凭证上的文字和符号,而不能分析原始凭证的版面结构,也不能理解凭证上的内容。在对凭证做光学字符识别后,需要设计模板对凭证进行版面分析,以理解识别出的字符的具体含义。传统的做法是设计一个固定模板对凭证信息进行框选,用户拍摄凭证时将固定目标对准凭证图像。然而固定模板“套不准”的情况经常发生,不仅影响识别率,也影响了用户体验。此外,固定模板仅适用于结构固定、元素位置相对不变的凭证,而实际应用时即使同类凭证的版面结构也并不是一成不变的,如火车票的版面也经常发生变化。正因如此,现有的凭证图像识别系统无法高效、准确的识别凭证图像,影响财务报销的效率。
技术实现思路
本专利技术的主要目的是提供一种能够对不同类型、不同版面的凭证图像进行高效识别的凭证图像识别方法。本专利技术的另一目的是提供一种能够高效地对识别不同类型凭证的凭证识别装置。为了实现上述的主要目的,本专利技术提供的凭证识别方法包括读取凭证图像,对所读取的凭证图像进行光学字符识别;并且,提取凭证图像的特征信息,根据特征信息判断凭证图像是否与固定结构的模板匹配,如是,则提取凭证图像中的特征元素的数据;如判断凭证图像不与任一固定结构的模板匹配,则进一步判断凭证图像是否为特定分类的凭证,如是,将凭证图像与该分类的弹性模板匹配,并识别凭证图像中的特征元素,提取特征元素的数据;如判断凭证图像不是特定分类的凭证,则将凭证图像的特征信息遍历所有模板,并查找到最匹配的模板后识别凭证图像中的特征元素,提取凭证图像中的特征元素的数据。由上述方案可见,提取凭证图像的特征信息后,首先判断图像凭证是否与固定结构的模板匹配,如匹配则直接按照固定结构的模板提取特征元素的数据,如果不是与固定结构的模板匹配,则通过分类器判断凭证是否为特定分类的凭证,并且通过匹配弹性模板的方式识别出各个特征元素,从而获取各个特征元素的数据。这样,在识别凭证图像时,并不会只能对固定结构的模板进行识别,并且一旦判断不与固定结构的模板匹配时,也不会直接遍历所有模板,而是识别出凭证的分类后,通过匹配弹性模板的方式查找出凭证的分类,并且根据弹性模板分析出凭证上各个特征元素,再提取特征元素的数据,从而避免花费较长时间遍历所有模板,凭证图像识别的时间大大缩短。一个优选的方案是,每一弹性模板包括所属特定分类中至少一个特征元素。由于弹性模板是特定分类的凭证,因此凭证图像应该包含有所属分类的凭证的特征元素,因此识别凭证图像时,分析出凭证图像中所属分类的凭证的特征元素,可以提高凭证图像的识别效率。进一步的方案是,特征信息至少包括静态文本、特殊符号、分隔符、条码或二维码、空白区域中的一个。由此可见,通过识别凭证图像中诸如静态文本、特殊符号、分隔符、条码或二维码、空白区域的特征来辨别凭证图像的分类,可以快速确定凭证的类型,从而快速获取凭证图像中的特征元素的数据。更进一步的方案是,判断凭证图像是否为特定分类的凭证包括:搜索凭证图像中的静态文本后,搜索凭证图像中的特征元素的字段,并搜索已查找的特征元素的邻近字段,根据静态文本、特征元素的字段确定凭证图像的分类。由此可见,依据静态文本、确定的特征元素字段、邻近字段的方式确定凭证图像的分类,一方面可以确保对凭证图像识别的准确性,另一方面可以提高凭证图像识别的效率。更进一步的方案是,搜索特征元素的字段后,对所搜索的特征元素的字段进行假设可信度校验。可见,在搜索特征元素的字段后,使用假设树规则对搜索的特征元素字段进行假设可信度的校验,可以大大提高对凭证图像识别的准确性。为了实现上述的另一目的,本专利技术还提供的凭证识别装置包括光学字符识别模块,读取凭证图像,对所读取的凭证图像进行光学字符识别;还包括固定结构模板判断模块,提取凭证图像的特征信息,根据特征信息判断凭证图像是否与固定结构的模板匹配,如是,则提取凭证图像中的特征元素的数据;还包括分类判断模块,如判断凭证图像不与任一固定结构的模板匹配,则进一步判断凭证图像是否为特定分类的凭证,如是,将凭证图像与该分类的弹性模板匹配,并识别凭证图像中的特征元素,提取特征元素的数据;还包括遍历模块,如判断凭证图像不是特定分类的凭证,则将凭证图像的特征信息遍历所有模板,并查找到最匹配的模板后识别凭证图像中的特征元素,提取凭证图像中的特征元素的数据。由上述方案可见,凭证识别装置获取凭证图像后,提取凭证图像的特征信息,并且判断图像凭证是否与固定结构的模板匹配,如匹配则按照固定结构的模板来提取特征元素的数据,如果不是固定结构的模板匹配,则通过分类器判断凭证图像是否为特定分类的凭证图像,并且通过匹配弹性模板的方式识别出凭证图像中的各个特征元素,从而获取各个特征元素的数据。这样,一旦凭证图像没有与任一个固定结构的模板匹配时,无需马上遍历所有模板,大大节省凭证图像的识别时间,提高凭证图像的识别效率。附图说明图1是本专利技术凭证图像识别方法实施例的流程图。图2是应用本专利技术凭证图像识别方法实施例识别的一种凭证的图示。图3是应用本专利技术凭证图像识别方法实施例识别的另一种凭证的图示。图4是本专利技术凭证图像识别方法实施例中判断凭证图像分类的流程图。图5是本专利技术凭证图像识别装置实施例的结构框图。以下结合附图及实施例对本专利技术作进一步说明。具体实施方式本专利技术的凭证图像识别方法是对拍照、扫描等方式获得的凭证的图像进行识别的方法,并且是基于光学字符识别技术对凭证的图像进行识别。本专利技术的凭证图像识别装置是运行在计算机设备上并且用于实现上述图像识别方法的装置。执行凭证图像的识别,首先获取凭证图像,凭证图像是计算机可读的电子图像,如通过拍照方式获得的图像或者通过扫描方式获得的图像。获得凭证图像后,才能对凭证图像进行识别。对凭证图像进行识别的过程如图1所示。首先,执行步骤S1,读取凭证图像,并且对凭证图像进行预处理。读取凭证图像可以是将拍照或者扫描获得的凭证图像进行读取本文档来自技高网
...
凭证图像识别方法及装置

【技术保护点】
凭证图像识别方法,包括:读取凭证图像,对所读取的所述凭证图像进行光学字符识别;其特征在于:提取所述凭证图像的特征信息,根据所述特征信息判断所述凭证图像是否与固定结构的模板匹配,如是,则提取所述凭证图像中的特征元素的数据;如判断所述凭证图像不与任一固定结构的模板匹配,则进一步判断所述凭证图像是否为特定分类的凭证,如是,将所述凭证图像与该分类的弹性模板匹配,并识别所述凭证图像中的特征元素,提取所述特征元素的数据;如判断所述凭证图像不是特定分类的凭证,则将所述凭证图像的特征信息遍历所有模板,并查找到最匹配的模板后识别所述凭证图像中的特征元素,提取所述凭证图像中的特征元素的数据。

【技术特征摘要】
1.凭证图像识别方法,包括:读取凭证图像,对所读取的所述凭证图像进行光学字符识别;其特征在于:提取所述凭证图像的特征信息,根据所述特征信息判断所述凭证图像是否与固定结构的模板匹配,如是,则提取所述凭证图像中的特征元素的数据;如判断所述凭证图像不与任一固定结构的模板匹配,则进一步判断所述凭证图像是否为特定分类的凭证,如是,将所述凭证图像与该分类的弹性模板匹配,并识别所述凭证图像中的特征元素,提取所述特征元素的数据;如判断所述凭证图像不是特定分类的凭证,则将所述凭证图像的特征信息遍历所有模板,并查找到最匹配的模板后识别所述凭证图像中的特征元素,提取所述凭证图像中的特征元素的数据。2.根据权利要求1所述的凭证图像识别方法,其特征在于:每一所述弹性模板包括所属特定分类中至少一个所述特征元素。3.根据权利要求1或2所述的凭证图像识别方法,其特征在于:所述特征信息至少包括静态文本、特殊符号、分隔符、条码或二维码、空白区域中的一个。4.根据权利要求1或2所述的凭证图像识别方法,其特征在于:判断所述凭证图像是否为特定分类的凭证包括:搜索所述凭证图像中的所述静态文本后,搜索所述凭证图像中的特征元素的字段,并搜索已查找的特征元素的邻近字段,根据所述静态文本、特征元素的字段确定凭证图像的分类。5.根据权利要求4所述的凭证图像识别方法,其特征在于:搜索所述特征元素的字段后,对所搜索的特征元素的字段进行假设可信度校验。6.凭证图像识别装置,包括:光学字符识别模块,读取...

【专利技术属性】
技术研发人员:鲁静宋斌向万红
申请(专利权)人:远光软件股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1