【技术实现步骤摘要】
票据识别方法、装置、电子设备及存储介质
本申请涉及人工智能
,特别涉及一种票据识别方法、装置、电子设备及存储介质。
技术介绍
目前,基于深度学习的票据识别系统是指利用深度学习技术识别票据上的文字信息,并对文字信息进行结构化提取。其中,OCR(OpticalCharacterRecognition,光学字符识别)技术是一种光学字符识别技术,用于识别图片上的文字。相关技术中,虽然票据电子化已经得到了广泛地发展,然而在众多领域纸质票据仍然占有很大的比例。对于这些纸质票据,传统的处理方法主要是利用高拍仪扫描得到票据影像,然后将票据影像存入数据库,并且人工录入票据上的信息到数据库。相关技术的票据识别方法非常耗时耗力,且随着计算机技术尤其是OCR技术的发展,出现了很多基于OCR技术的票据识别方法,其可以利用计算机实现票面信息的自动识别,并将提取到的票面信息存入数据库,大大地节省了处理票据的人力投入。但是,现有的基于OCR技术的票据识别与处理系统存在如下问题:(1)对于倾斜或者方向旋转的图片,文字识别效果不好 ...
【技术保护点】
1.一种票据识别方法,其特征在于,包括以下步骤:/n获取待识别票据的票据图片;/n识别所述票据图片的实际倾斜角类别,并基于所述实际倾斜角类别矫正所述票据图片的倾斜角;以及/n检测矫正后的票据图片的文本框,并从所述文本框中提取文字信息,且识别所述票据图片的实际种类的同时,基于所述实际种类确定所述文本框的实际分类,以提取所述待识别票据的票据页面信息。/n
【技术特征摘要】
1.一种票据识别方法,其特征在于,包括以下步骤:
获取待识别票据的票据图片;
识别所述票据图片的实际倾斜角类别,并基于所述实际倾斜角类别矫正所述票据图片的倾斜角;以及
检测矫正后的票据图片的文本框,并从所述文本框中提取文字信息,且识别所述票据图片的实际种类的同时,基于所述实际种类确定所述文本框的实际分类,以提取所述待识别票据的票据页面信息。
2.根据权利要求1所述的方法,其特征在于,所述识别所述票据图片的实际倾斜角类别,并基于所述实际倾斜角类别矫正所述票据图片的倾斜角,包括:
分别采集逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度的数据,以确定所述实际倾斜角类别;
将所述票据图片顺时针旋转所述实际倾斜角类别对应的矫正角度。
3.根据权利要求1所述的方法,其特征在于,所述检测矫正后的票据图片的文本框,并从所述文本框中提取文字信息,且识别所述票据图片的实际种类的同时,基于所述实际种类确定所述文本框的实际分类,以提取所述待识别票据的票据页面信息,包括:
利用预设的文本检测算法获取包含文本行的矩形区域,得到所述文本框;根据所述文本框的四个顶点的当前坐标确定文本所处位置;
根据所述文本所处位置截取矩形区域图片,并将所述矩形区域图片输入预设的文本是被网络,得到所述文字信息。
4.根据权利要求1所述的方法,其特征在于,所述检测矫正后的票据图片的文本框,并从所述文本框中提取文字信息,且识别所述票据图片的实际种类的同时,基于所述实际种类确定所述文本框的实际分类,以提取所述待识别票据的票据页面信息,包括:
采用DenseNet网络去获取所述文本框的图像特征;
将所述图像特征转化为一维的特征向量,并结合所述文本框的几何特征,生成最终的一维组合特征;
将所述一维组合特征输入一个神经元数目等于分类数目的全连接网络,并利用softmax函数输出每个分类的概率值,确定所述实际分类。
5.根据权利要求1所述的方法,其特征在于,在...
【专利技术属性】
技术研发人员:王仲,曾纪才,李飞,
申请(专利权)人:北京中科江南信息技术股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。