一种基于特征检测的OCR识别票据问题的方法及系统技术方案

技术编号:24331722 阅读:35 留言:0更新日期:2020-05-29 19:55
本发明专利技术公开了一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,有效的解决了原始文件字迹清晰度、整洁度等较难识别问题,能够大批量的导入票据,并快速的对票据进行相似度识别,利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错,进一步提高准确率。根据定位出的风险点快速减少了审计的工作量,提升了此类信息化系统的用户体验。

A method and system of OCR based on feature detection for bill recognition

【技术实现步骤摘要】
一种基于特征检测的OCR识别票据问题的方法及系统
本公开涉及OCR图像识别、模式匹配领域,具体涉及一种基于特征检测的OCR识别票据问题的方法及系统。
技术介绍
票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明,货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据,由于种类多种多样,故票据的模式匹配、定位和识别十分的困难;由于票据五花八门的种类,例如发票、机票、火车票、收据、凭条、存根、购物券等,这些不同的票据,特征词位置不一样,敏感词的表达形式也各有差异,数字的大小写也无规范,故如果票据数量多的话,在审计工作中,审计规则的内容集合,包括:发票类型、单位名称、金额的审计规则的集合,类别多种多样,故通过人工进行识别判断十分的困难,极易出错。
技术实现思路
本公开提供一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,从而快速的定位并对票据中风险信息发出警报。本公开的目的是针对上述问题,提供一种基于特征检测的OCR识别票据问题的方法及系统,具体包括以下步骤:S100:读取票据图像文件得到票据图像;S200:对票据图像进行背景消除;S300:将背景消除后的票据图像进行中值滤波处理得到第一图像;S400:对第一图像做投影变换并去除分隔符;S500:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本;S600:抽取票据文本的关键词组合;S700:计算关键词组合与知识库中的各个规则集的匹配度;S800:将匹配度最高的规则集作为基准规则集;S900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。进一步地,在S100中,所述票据图像文件包括但不限于以PDF、jpg、jpeg、bmp等图像格式存储的票据图像,票据包括但不限于发票、机票、火车票、收据、凭条、存根、购物券。进一步地,在S200中,对票据图像进行背景消除的方法为以下步骤:S210:将票据图像的彩色图像转换成灰度图;S220:根据票据图像的最高、最低灰度值对票据图像进行二值化处理,能够使票据图像的背景图基本置为0,以突出票据图像的票据区域;S230:对票据图像作相邻像素灰度值相减,得到背景消除的票据图像,从而减小票据图像的背景影响。进一步地,在S300中,将背景消除后的票据图像进行中值滤波处理得到第一图像的方法为:由于票据图像的文字是像素点或短竖线构成,所以票据图像的背景噪声中大部分是孤立的噪声,采用的中值滤波器上滑动窗口,含有奇数个元素;将窗口中心的票据图像的元素灰度值用窗口中各灰度值的中间数值来代替,中值滤波可以去除票据图像的这部分噪声;通过垂直投影法、水平投影法分别检测票据图像垂直和水平的位置得到第一图像。进一步地,在S400中,对第一图像做投影变换并去除分隔符的方法为以下步骤:S410:从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置,其中,阈值T一般设置为大于图像中所有像素的平均值;S420:分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。进一步地,在S500中,在去除分隔符的第一图像中识别字符特征得到字符特征图像区域方法为以下步骤:AS510:将去除分隔符的第一图像进行归一化处理得到归一化图像;AS520:将归一化图像进行网格化,对二值化的归一化图像的图像区域进行均匀的网格覆盖;AS530:对归一化图像的各个网格填充处理得到填充对象的模式空间;AS540:计算待识别字符的特征模式的基准构架和特征向量;基准构架为图像中字符在图像中的结构;AS550:调节各个待识别字符的上、下、左、右和中心五个子模式的权重;权重默认为0.5,取值范围为0到1之间的小数;AS560:以步骤AS550输入的模式为基准,依次载入各个字符,把一系列全局属性模式与待识别字符的向量作内积,将内积值最小的字符的区域作为识别的字符特征图像区域;因此,通过待识别字符的模式特征点的占比进行取值,能够对字迹清晰度、整洁度等较难识别的图像更好地反应字符的特征。智能的实现了OCR识别纠错,进一步提高了准确率。进一步地,在S500中,识别字符特征图像区域中的字符得到票据文本的方法为以下步骤:BS510:如果K小于10且T<Vmax,扫描票据图像的垂直投影,等距的将所有的大于阈值T的投影块分割出来,得到K个分割区数,i为0到K-1之间的正整数,以X_Start[i]和X_End[i]分别标记为第i个分割区数起始点和结束点,Vmax为票据图像的字符区域垂直投影的最大值;BS520:去除票据图像的分隔符号:如果K大于10,计算分隔符号的位置P[i]:去除分隔符号P[i]的分割区数的字符,其中,i为0到K-1之间的正整数,Vertical[j]为票据图像的第j个字符区域的垂直投影区域。BS530:根据最终识别的所有字符得到票据文本。进一步地,在S600中,抽取票据文本的关键词组合的抽取关键词的方法为TF-IDF算法、HanLP算法、PageRank算法、TextRank算法任意一种关键词抽取方法。进一步地,在S700中,计算关键词组合与知识库中的各个规则集的匹配度的方法为以下步骤:令票据文本为S,规则集为Si,i为1到n之间的正整数,n为知识库中的规则集的数量,则通过S与Si之间的语义距离来计算相似度D(S,Si)=1-Same(S,Si),其中,Same(S,Si)表示S与Si的匹配度,其中,语句相似度wij的值的计算方法为,令票据文本S的关键词的任意组合为Key,Si中对应的关键词为Keyj,freqi,j表示关键词Keyj在Si出现的频率,j代表关键词Keyj在Si中出现第j次,j为1到n之间的正整数,则语句相似度wij的值为,其中,mi,j表示关键词Key在Si中出现第j次的在知识库中的期望平均值,其中:freq为关键词word在S出现的频率,freqi,j表示关键词wordj在Si出现的频率;其中,S与Si的匹配度Same(S,Si)∈[0,1],匹配度的值越小,表明匹配度越高,文本越相似,选取匹配度最高的规则集作为基准规则集,所述知识库包括了多个规则集,每个规则集包括了多个关键词,为审计规则的集合,包括:发票类型、单位名称、金额的审计规则的集合。进一步地,在S900中,票据文本本文档来自技高网...

【技术保护点】
1.一种基于特征检测的OCR识别票据问题的方法,其特征在于,所述方法包括以下步骤:/nS100:读取票据图像文件得到票据图像;/nS200:对票据图像进行背景消除;/nS300:将背景消除后的票据图像进行中值滤波处理得到第一图像;/nS400:对第一图像做投影变换并去除分隔符;/nS500:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本;/nS600:抽取票据文本的关键词组合;/nS700:计算关键词组合与知识库中的各个规则集的匹配度;/nS800:将匹配度最高的规则集作为基准规则集;/nS900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。/n

【技术特征摘要】
1.一种基于特征检测的OCR识别票据问题的方法,其特征在于,所述方法包括以下步骤:
S100:读取票据图像文件得到票据图像;
S200:对票据图像进行背景消除;
S300:将背景消除后的票据图像进行中值滤波处理得到第一图像;
S400:对第一图像做投影变换并去除分隔符;
S500:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本;
S600:抽取票据文本的关键词组合;
S700:计算关键词组合与知识库中的各个规则集的匹配度;
S800:将匹配度最高的规则集作为基准规则集;
S900:若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。


2.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S200中,对票据图像进行背景消除的方法为以下步骤:
S210:将票据图像的彩色图像转换成灰度图;
S220:根据票据图像的最高、最低灰度值对票据图像进行二值化处理,能够使票据图像的背景图基本置为0,以突出票据图像的票据区域;
S230:对票据图像作相邻像素灰度值相减,得到背景消除的票据图像,从而减小票据图像的背景影响。


3.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S300中,将背景消除后的票据图像进行中值滤波处理得到第一图像的方法为:由于票据图像的文字是像素点或短竖线构成,所以票据图像的背景噪声中大部分是孤立的噪声,采用的中值滤波器上滑动窗口,含有奇数个元素;将窗口中心的票据图像的元素灰度值用窗口中各灰度值的中间数值来代替,中值滤波可以去除票据图像的这部分噪声;通过垂直投影法、水平投影法分别检测票据图像垂直和水平的位置得到第一图像。


4.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S400中,对第一图像做投影变换并去除分隔符的方法为以下步骤:
S410:从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置;
S420:分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。


5.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S500中,在去除分隔符的第一图像中识别字符特征得到字符特征图像区域方法为以下步骤:
AS510:将去除分隔符的第一图像进行归一化处理得到归一化图像;
AS520:将归一化图像进行网格化,对二值化的归一化图像的图像区域进行均匀的网格覆盖;
AS530:对归一化图像的各个网格填充处理得到填充对象的模式空间;
AS540:计算待识别字符的特征模式的基准构架和特征向量;基准构架为图像中字符在图像中的结构;
AS550:调节各个待识别字符的上、下、左、右和中心五个子模式的权重;
AS560:以步骤AS550输入的模式为基准,依次载入各个字符,把一系列全局属性模式与待识别字符的向量作内积,将内积值最小的字符的区域作为识别的字符特征图像区域。


6.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法,其特征在于,在S500中,识别字...

【专利技术属性】
技术研发人员:王淼金昌铉程俊春朱宇龙马博赵永国刘森黎晚晴张君梁惠欣
申请(专利权)人:中国南方电网有限责任公司南方电网数字电网研究院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1