【技术实现步骤摘要】
一种发票识别方法及装置
[0001]本专利技术涉及文字识别
,特别涉及一种发票识别方法及装置。
技术介绍
[0002]在电子发票未全面铺开的环境下,纸质发票拍照成图片进行报销仍是共享网报的主要数据来源,在发票文字识别数据的过程中,因为拍照角度、形似字、模糊等情况经常错误的将购买方名称等汉字识别错误,或者因为增值税发票的购买方名称等内容不具有日常用语的逻辑性与连贯性,比较难以通过日常用语的学习来提高模型的识别率,较容易出现形状类似的字体错误,最终导致发票难以报销。
技术实现思路
[0003]为了解决上述技术问题,提出了本专利技术。本专利技术的实施例提供了一种发票识别方法及装置,可以提升发票识别结果的准确性。
[0004]根据本专利技术的一个方面,提供了一种发票识别方法,包括:对发票图片进行预处理,获得第一发票图片;其中,所述预处理包括降噪和确定目标文字区域;对所述第一发票图片中的文字进行切割,获得第二发票图片;标记所述第二发票图片中的文字的形态特征;以及根据所述形态特征和图像特征,识别所述第二发票
【技术保护点】
【技术特征摘要】
1.一种发票识别方法,其特征在于,包括:对发票图片进行预处理,获得第一发票图片;其中,所述预处理包括降噪和确定目标文字区域;对所述第一发票图片中的文字进行切割,获得第二发票图片;标记所述第二发票图片中的文字的形态特征;以及根据所述形态特征和图像特征,识别所述第二发票图片中的文字。2.根据权利要求1所述的发票识别方法,其特征在于,所述标记所述第二发票图片中的文字的形态特征包括:通过霍夫变换直线检测算法,利用点和线的对偶性,对所述第二发票图片的图像空间的坐标系进行变换;将欧式空间中的直线检测变换为霍夫空间下的峰值检测,记录所述第二发票图片中的每个所述文字的形态特征;其中,所述形态特征包括所述文字的直线特征、曲线特征和离断特征。3.根据权利要求1所述的发票识别方法,其特征在于,在所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字之前,所述发票识别方法还包括:获取业务数据字典,其中,所述业务数据字典包括预设的基础数据信息;所述基础数据信息表示与发票相关的名称和业务术语;其中,所述根据所述形态特征和图像特征,识别所述第二发票图片中的文字包括:根据所述形态特征、图像特征和所述业务数据字典,识别所述第二发票图片中的文字。4.根据权利要求1所述的发票识别方法,其特征在于,所述对发票图片进行预处理,获得第一发票图片包括:以预设阈值对所述发票图片进行二值化处理,获得降噪后的所述发票图片;采用索伯算子作为所述发票图片的边缘检测算子,对所述发票图片进行文字区域检测,获得确定目标文字区域的所述第一发票图片。5.根据权利要求4所述的发票识别方法,其特征在于,所述采用索伯算子作为所述发票图片的边缘检测算子,对所述发票图片进行文字区域检测包括:通过卷积获取所述第一发票图片的横纵向的亮度差分Gx和Gy;根据所述亮度差分Gx和Gy,计算得到图像的像素灰度点G;其中,所述根据所述亮度差分Gx和Gy,计算得到图像的像素灰度点包括:G=(Gx^2+Gy^2)^
‑
2;G表示所述像素灰度点,Gx和Gy表示所述亮度差分。6.根据权利要求1所述的发票识别方法,其特征在于,所述对所述第一发票图片中的文字进行切割,获得...
【专利技术属性】
技术研发人员:刘晓飞,
申请(专利权)人:浪潮通用软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。