【技术实现步骤摘要】
一种基于文字识别与语义分析的发票分类方法
本专利技术涉及图像处理、人工智能
,具体涉及一种基于文字识别与语义分析的发票分类方法。
技术介绍
近几年来,随着我国社会经济的飞速发展,经济活动日益频繁,无论是普通消费者还是各种类型的企业对消费必须开具发票、凭票才能进行报销的认识日益深刻。目前,我国每年报销使用的发票数以亿计,而且发票的种类也在不断增多。如果人工处理这些发票的话,一方面会消耗大量的人力物力,加重负责报销的财务人员的工作负担,而且会占用报销者大量额外的精力。另一方面人工处理发票效率低、错误率高。故实现发票自动化处理与智能财务报销有很大的实用价值。利用图像处理及人工智能领域的相关技术识别发票文字、实现智能财务报销具有重要意义。它即能提高报销效率,减少报销者在报销上浪费的精力和时间,降低财务人员的工作负担,又能降低中小型企业的人力资源成本,对企业与社会发展十分有益。
技术实现思路
为解决现有技术中的不足,本专利技术提供一种基于文字识别与语义分析的发票分类方法,解决了发票种类分类速度慢、发票报销效率低的问题。为了实现上述目标,本专利技术采用如下技术方案:一种基于 ...
【技术保护点】
1.一种基于文字识别与语义分析的发票分类方法,其特征在于:具体包括以下步骤:步骤一,通过图像采集设备采集发票图像,记作A;步骤二,利用霍夫变换检测图像A中发票的长length和宽width,单位为像素;步骤三,设定边长阈值lthreshold,并将边长阈值与长和宽进行比较,对发票进行初步分类;步骤四,根据上一步的初步分类结果,调用发票模版,根据发票模板切割出需要进行文字识别的区域X;步骤五,调用第三方文字识别系统,识别区域X中的文字并对识别结果进行语义分析,得出精确的发票分类。
【技术特征摘要】
1.一种基于文字识别与语义分析的发票分类方法,其特征在于:具体包括以下步骤:步骤一,通过图像采集设备采集发票图像,记作A;步骤二,利用霍夫变换检测图像A中发票的长length和宽width,单位为像素;步骤三,设定边长阈值lthreshold,并将边长阈值与长和宽进行比较,对发票进行初步分类;步骤四,根据上一步的初步分类结果,调用发票模版,根据发票模板切割出需要进行文字识别的区域X;步骤五,调用第三方文字识别系统,识别区域X中的文字并对识别结果进行语义分析,得出精确的发票分类。2.根据权利要求1所述的一种基于文字识别与语义分析的发票分类方法,其特征是:所述步骤二中利用霍夫变换检测图像A中发票的长length和宽width,具体步骤包括:步骤2-1,将图像A二值化,得到二值图像B,并在直角坐标系下将二值图像B离散化,计算出图像B的长和宽,分别记为m,n;步骤2-2,建立并初始化离散化的参数空间ρ-θ,其中,θ∈[0,180),单位为度,单位间隔为1;建立并初始化水平二维累加数组KH(0°,ρ)和垂直二维累加数组KV(90°,ρ);步骤2-3,遍历步骤2-1中离散化的二值图像B,找出所有像素值不为0的点(x,y),每找出一个点,将其带入方程ρ=xcosθ+ysinθ中,分别求出θ=0°和θ=90°对应的ρ,并分别在相应的水平二维累加数组KH(0°,ρ)和垂直二维累加数组KV(90°,ρ)上加1;步骤2-4,遍历水平二维累加数组KH(0°,ρ),找出最大值和次最大值,将其对应的θ=0°和ρ带入方程ρ=xcosθ+ysinθ,得到lH1和lH2,即为发票图像水平方向两条边的方程;同理,遍历垂直二维累加数组KV(90°,ρ),将其对应的θ=90°和ρ带入方程ρ=xcosθ+ysinθ,得到发票图像竖直方向两条边的方程lV1和lV2;步骤2-5,联立lH1和lV1,可以得到交点(x11,y11),联立lH1和lV2可以得到交点(x12,y12),联立lH2和lV1可以得到交点(xmin,ymin),联立lH2和lV2得到交点(x22,y22),根据这些点求得发票的长length和宽width,公式如下:步骤2-6,比较上...
【专利技术属性】
技术研发人员:桂冠,王禹,熊健,范山岗,杨洁,尹悦,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。