【技术实现步骤摘要】
一种基于特征检测的OCR识别票据问题的方法及系统
本公开涉及OCR图像识别、模式匹配领域,具体涉及一种基于特征检测的OCR识别票据问题的方法及系统。
技术介绍
票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明,货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据,由于种类多种多样,故票据的模式匹配、定位和识别十分的困难;由于票据五花八门的种类,例如发票、机票、火车票、收据、凭条、存根、购物券等,这些不同的票据,特征词位置不一样,敏感词的表达形式也各有差异,数字的大小写也无规范,故如果票据数量多的话,在审计工作中,审计规则的内容集合,包括:发票类型、单位名称、金额的审计规则的集合,类别多种多样,故通过人工进行识别判断十分的困难,极易出错。
技术实现思路
本公开提供一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,从而快速的定位并对票据中风险信息发出警报。本公开的目的是针对上述问题,提供一种基于特征检测的OCR识别票据问题的方法及系统,具体包括以下步骤:S100:读取票据图像文件得到票据图像;S200:对票据图像进行背景消除;S300:将背景消除后的票据图像进行中值滤波处 ...
【技术保护点】
1.一种基于特征检测的OCR识别票据问题的方法,其特征在于,所述方法包括以下步骤:/nS100:读取票据图像文件得到票据图像;/nS200:对票据图像进行背景消除;/nS300:将背景消除后的票据图像进行中值滤波处理得到第一图像;/nS400:对第一图像做投影变换并去除分隔符;/nS500:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本;/nS600:抽取票据文本的关键词组合;/nS700:计算关键词组合与知识库中的各个规则集的匹配度;/nS800:将匹配度最高的规则集作为基准规则集;/nS900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。/n
【技术特征摘要】
1.一种基于特征检测的OCR识别票据问题的方法,其特征在于,所述方法包括以下步骤:
S100:读取票据图像文件得到票据图像;
S200:对票据图像进行背景消除;
S300:将背景消除后的票据图像进行中值滤波处理得到第一图像;
S400:对第一图像做投影变换并去除分隔符;
S500:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本;
S600:抽取票据文本的关键词组合;
S700:计算关键词组合与知识库中的各个规则集的匹配度;
S800:将匹配度最高的规则集作为基准规则集;
S900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。
2.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S200中,对票据图像进行背景消除的方法为以下步骤:
S210:将票据图像的彩色图像转换成灰度图;
S220:根据票据图像的最高、最低灰度值对票据图像进行二值化处理,能够使票据图像的背景图基本置为0,以突出票据图像的票据区域;
S230:对票据图像作相邻像素灰度值相减,得到背景消除的票据图像,从而减小票据图像的背景影响。
3.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S300中,将背景消除后的票据图像进行中值滤波处理得到第一图像的方法为:由于票据图像的文字是像素点或短竖线构成,所以票据图像的背景噪声中大部分是孤立的噪声,采用的中值滤波器上滑动窗口,含有奇数个元素;将窗口中心的票据图像的元素灰度值用窗口中各灰度值的中间数值来代替,中值滤波可以去除票据图像的这部分噪声;通过垂直投影法、水平投影法分别检测票据图像垂直和水平的位置得到第一图像。
4.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S400中,对第一图像做投影变换并去除分隔符的方法为以下步骤:
S410:从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置;
S420:分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。
5.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S500中,在去除分隔符的第一图像中识别字符特征得到字符特征图像区域方法为以下步骤:
AS510:将去除分隔符的第一图像进行归一化处理得到归一化图像;
AS520:将归一化图像进行网格化,对二值化的归一化图像的图像区域进行均匀的网格覆盖;
AS530:对归一化图像的各个网格填充处理得到填充对象的模式空间;
AS540:计算待识别字符的特征模式的基准构架和特征向量;基准构架为图像中字符在图像中的结构;
AS550:调节各个待识别字符的上、下、左、右和中心五个子模式的权重;
AS560:以步骤AS550输入的模式为基准,依次载入各个字符,把一系列全局属性模式与待识别字符的向量作内积,将内积值最小的字符的区域作为识别的字符特征图像区域。
6.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S500中,识别字...
【专利技术属性】
技术研发人员:王淼,金昌铉,程俊春,朱宇龙,马博,赵永国,刘森,黎晚晴,张君,梁惠欣,
申请(专利权)人:中国南方电网有限责任公司,南方电网数字电网研究院有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。