The invention discloses a device and a document image recognition method, the method includes reading the document image and optical character recognition; feature extraction of image information documents, to determine whether the image document matching, and the fixed structure template is to extract feature elements in the image document data; otherwise, further judgment document image whether the specific classification of documents, such as, matching the elastic template document images and the classification and identification of characteristic elements, vouchers in the image, feature extraction of data element; otherwise, the traversal of all the image feature information of document templates, and find the best matching template in the image feature recognition element certificate. Feature extraction in image data of the document element. The device comprises a learning character recognition module, a fixed structure template judging module, a classification judging module and an ergodic module, and is used for realizing the above image recognition method. The invention can quickly and accurately identify various document images.
【技术实现步骤摘要】
凭证图像识别方法及装置
本专利技术涉及图像自动识别领域,尤其涉及一种对各种凭证进行光学字符识别后对凭证的内容进行识别的方法以及实现这种方法的装置。
技术介绍
人们在日常的消费过程中,往往产生大量的凭证,如乘坐飞机,将会有登机牌或者航程单,乘坐火车或汽车会有火车票或者汽车票,到餐馆吃饭可以获得餐饮发票等,这些凭证都是财务报销的依据,因此,如人们在差旅过程中产生这些凭证,在差旅结束后需要将这些凭证交给财务部门,由财务部门核实并且予以报销。由于凭证种类众多,且每一张凭证均包含大量的数据,以火车票为例,凭证上包括乘车日期、乘客姓名、车次号、乘车日期与时间、座号、乘客身份证号码、金额等,报销时往往需要将这些信息录入到报销系统中。如果人工地将这些信息录入系统,工作量将非常巨大。此外,在人数众多的企业,差旅报销的凭证数量巨大,如每一张凭证均人工录入,将严重影响财务部门的工作量。为此,人们开发出基于光学字符识别(OCR,opticalcharacterrecognition)的凭证图像识别系统,即通过光学字符识别技术将凭证上的字符识别出来,将识别出来的字符自动填写到报销系统相应的栏目上,从而避免人工输入凭证信息。使用这种系统时,需要通过拍摄装置将凭证拍照,然后使用报销系统对拍摄的凭证图像进行光学字符识别,从而获取相应的信息。目前普遍的基于光学字符识别的报销系统都只能识别出凭证上的文字和符号,而不能分析原始凭证的版面结构,也不能理解凭证上的内容。在对凭证做光学字符识别后,需要设计模板对凭证进行版面分析,以理解识别出的字符的具体含义。传统的做法是设计一个固定模板对凭证信息进行 ...
【技术保护点】
凭证图像识别方法,包括:读取凭证图像,对所读取的所述凭证图像进行光学字符识别;其特征在于:提取所述凭证图像的特征信息,根据所述特征信息判断所述凭证图像是否与固定结构的模板匹配,如是,则提取所述凭证图像中的特征元素的数据;如判断所述凭证图像不与任一固定结构的模板匹配,则进一步判断所述凭证图像是否为特定分类的凭证,如是,将所述凭证图像与该分类的弹性模板匹配,并识别所述凭证图像中的特征元素,提取所述特征元素的数据;如判断所述凭证图像不是特定分类的凭证,则将所述凭证图像的特征信息遍历所有模板,并查找到最匹配的模板后识别所述凭证图像中的特征元素,提取所述凭证图像中的特征元素的数据。
【技术特征摘要】
1.凭证图像识别方法,包括:读取凭证图像,对所读取的所述凭证图像进行光学字符识别;其特征在于:提取所述凭证图像的特征信息,根据所述特征信息判断所述凭证图像是否与固定结构的模板匹配,如是,则提取所述凭证图像中的特征元素的数据;如判断所述凭证图像不与任一固定结构的模板匹配,则进一步判断所述凭证图像是否为特定分类的凭证,如是,将所述凭证图像与该分类的弹性模板匹配,并识别所述凭证图像中的特征元素,提取所述特征元素的数据;如判断所述凭证图像不是特定分类的凭证,则将所述凭证图像的特征信息遍历所有模板,并查找到最匹配的模板后识别所述凭证图像中的特征元素,提取所述凭证图像中的特征元素的数据。2.根据权利要求1所述的凭证图像识别方法,其特征在于:每一所述弹性模板包括所属特定分类中至少一个所述特征元素。3.根据权利要求1或2所述的凭证图像识别方法,其特征在于:所述特征信息至少包括静态文本、特殊符号、分隔符、条码或二维码、空白区域中的一个。4.根据权利要求1或2所述的凭证图像识别方法,其特征在于:判断所述凭证图像是否为特定分类的凭证包括:搜索所述凭证图像中的所述静态文本后,搜索所述凭证图像中的特征元素的字段,并搜索已查找的特征元素的邻近字段,根据所述静态文本、特征元素的字段确定凭证图像的分类。5.根据权利要求4所述的凭证图像识别方法,其特征在于:搜索所述特征元素的字段后,对所搜索的特征元素的字段进行假设可信度校验。6.凭证图像识别装置,包括:光学字符识别模块,读取...
【专利技术属性】
技术研发人员:鲁静,宋斌,向万红,
申请(专利权)人:远光软件股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。