【技术实现步骤摘要】
一种报销单据图像文本信息校准与提取方法
[0001]本专利技术涉及图像识别、机器学习等
,具体地指一种报销单据图像文本信息校准与提取方法。
技术介绍
[0002]在财务对账等管理活动中,需要比对财务信息管理系统中的电子单据数据和纸质单据数据的一致性,确保财务活动的正确性和真实性,然而现实情况中经常会出现电子单据数据和纸质单据比对不一致的情况,严重财务管理的效率。目前电子单据比对和纸质单据比对主要通过财务人员人工审核的方式执行,效率低下且仍存在错误。
[0003]光学字符识别技术是目前纸质文档电子化的核心技术之一,为完成纸质单据和电子单据的比对提供了可行的技术路径,但存在一些技术难点:(1)纸质报销单据图像中存在较多噪声,例如纸张生产过程中产生的污点,报销单据打印过程中产生的不清晰墨迹,报销单据审核过程中产生的印章等,这些噪声十分影响光学字符识别准确性;(2)纸质报销单据打印过程中受打印纸张摆放位置的影响,经常会出现不对齐甚至错位的情况,对于准确识别并提取单据用户信息带来较大技术难点。
[0004]因此, ...
【技术保护点】
【技术特征摘要】
1.一种报销单据图像文本信息校准与提取方法,其特征在于,包括:1)报销单据图像噪声过滤方法,该方法基于OTSU阈值分割和EDT距离变换的图像预处理算法,对报销单据图像中存在的印章、墨点和皱褶等噪声进行过滤,并将过滤后的图像作为图像文本信息校准模块的输入;2)报销图像文本信息校准方法,该方法以单据中用户信息作为检测目标,采用最大连通域算法从报销单据图像中提取用户信息连通域,并根据用户信息与单据字段的对应关系构建相关性矩阵,标记并表示报销单据用户信息与模板字段连通域关联性;基于上述连通域相关性矩阵,通过随机旋转、缩放、高斯噪声和裁剪等扰动处理,进行数据增强,采用SSD网络训练报销图像文本信息校准模型,用于对用户信息与模板字段进行对齐校准处理;采用Tesseract识别单据文本框中的光学字符信息,将识别文本与电子单据数据进行比对,实现报销单据图像文本信息的校准与提取。2.根据权利要求1所述报销单据图像文本信息校准与提取方法,其特征在于:所述报销单据图像噪声过滤方法包括:1)提取原始图像RGB三个颜色通道的像素矩阵,采用OTSU阈值分割算法进行二值化处理,生成二值掩码矩阵,对原图进行过滤,保留图像中深色文字部分,去除如印章等彩色信息的噪声干扰;2)对上述过滤后的图像采用EDT距离变换,并再次采用OTSU阈值分割算法,设置阈值为单据印刷体笔画宽度的一半,获得提取后的二值图,实现文字细化,去除物体粘连;3)对上述二值图采用轮廓提取算法提取图中文字,采用最大连通域算法获得文字连通域的最小外接矩形,获得过滤噪声后的报销单据关键字段及用户信息。3.根据权利要求1所述报销单据图像文本信息校准与提取方法,其特征在于:所述报销图像文本信息校准方法包括:1)构建目标连通域标记训练集,由多种常用模板生成单据图像数据,每个单据图像包含多个字段及其坐标标注,字段对应用户信息,包含单据ID、日期、地址、用户信息等。采...
【专利技术属性】
技术研发人员:胡为民,郑喜,
申请(专利权)人:深圳市迪博企业风险管理技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。