一种基于图像分析的数据处理方法及系统技术方案

技术编号:31705920 阅读:13 留言:0更新日期:2022-01-01 11:08
本发明专利技术涉及一种基于图像分析的数据处理方法及系统,涉及数据处理技术领域,包括,步骤S1,通过扫描设备对待报销发票进行扫描;步骤S2,通过图像采集模块获取所述扫描设备描到的发票图像;步骤S3,通过调整模块调整所述发票图像的方向;在进行调整时,所述调整模块根据发票图像的长宽比比值A对方向进行调整;步骤S4,通过分区模块将方向调整后的所述发票图像进行区域划分,形成若干关键字区域;步骤S5,通过获取模块获取所述关键字区域的文字内容;步骤S6,通过判断模块判断发票是否符合要求;步骤S7,通过存储模块对符合要求发票的所述文字内容进行存储。本发明专利技术有效提高了发票报销的数据处理效率。据处理效率。据处理效率。

【技术实现步骤摘要】
一种基于图像分析的数据处理方法及系统


[0001]本专利技术涉及数据处理
,尤其涉及一种基于图像分析的数据处理方法及系统。

技术介绍

[0002]发票是指经济活动中,由出售方向购买方签发的文本,内容包括向购买者提供产品或服务的名称、质量、协议价格。除了预付款以外,发票必须具备的要素是根据议定条件由购买方向出售方付款,必须包含日期和数量,是会计账务的重要凭证。
[0003]在通过发票进行财务报销时,财务人员需要花费大量时间对各类报销凭证数据进行核对,且发票在打印及存储过程中易导致字体不清楚,从而导致人工核对效率低且核对准确度低,而现有技术中,在进行发票报销数据处理时,仍无法对字体不清的发票进行有效分辨,导致发票报销数据处理效率低。

技术实现思路

[0004]为此,本专利技术提供一种基于图像分析的数据处理方法及系统,用以克服现有技术中由于无法精确获取发票信息导致的发票报销效率低的问题。
[0005]为实现上述目的,一方面,本专利技术提供一种基于图像分析的数据处理方法,包括,
[0006]步骤S1,通过扫描设备对待报销发票进行扫描;
[0007]步骤S2,通过图像采集模块获取所述扫描设备描到的发票图像;
[0008]步骤S3,通过调整模块调整所述发票图像的方向;在进行调整时,所述调整模块根据发票图像的长宽比比值A对方向进行调整;
[0009]步骤S4,通过分区模块将方向调整后的所述发票图像进行区域划分,形成若干关键字区域;
[0010]步骤S5,通过获取模块获取所述关键字区域的文字内容;
[0011]步骤S6,通过判断模块判断发票是否符合要求;
[0012]步骤S7,通过存储模块对符合要求发票的所述文字内容进行存储;
[0013]所述步骤S6中,所述判断模块在对发票图像的第一关键字区域的文字内容进行判断时,所述判断模块根据第一关键字区域的文字数量B对第一关键字区域进行初步判定,若第一关键字区域的文字数量B符合要求,则根据差异文字数量D做下一步判定,若差异文字数量D符合要求,则根据差异文字中存在差异的笔画数量F做下一步判定,若存在差异的笔画数量F符合要求,则根据差异笔画的差异长度G对发票图像的第一关键字区域进行最终判定;
[0014]第一关键字区域文字内容符合要求后,所述判断模块根据发票图像的第二关键字区域的文字数量C对发票图像的第二关键字区域进行判定,当第二关键字区域的文字数量C符合要求时,则根据区别文字数量M做下一步判定,若区别文字数量M符合要求,则根据区别文字的轮廓对发票图像的第二关键字区域进行最终判定。
[0015]进一步地,所述步骤S3中,所述调整模块在对发票图像进行调整时,所述调整模块首先获取发票图像的长宽比比值A,并根据长宽比比值A对发票图像的方向进行调整,其中,
[0016]当A<1时,所述调整模块将发票图像顺时针旋转90
°
至A>1;
[0017]当A>1时,所述调整模块获取发票图像中部的椭圆图形区域,并根据椭圆图形区域的位置对发票图像调整,当椭圆图形区域位于发票图像上方时,不进行调整,当椭圆图形区域位于发票图像下方时,所述调整模块将发票图像顺时针旋转180
°

[0018]进一步地,所述步骤S4中,所述分区模块在对调整后的发票图像进行区域划分时,根据发票框架结构位置关系进行划分,并将购买方名称区域划分为第一关键字区域,将购买方纳税人识别号区域划分为第二关键字区域,将价税合计区域划分为第三关键字区域,将金额区域划分为第四关键字区域,将税额区域划分为第五关键字区域。
[0019]进一步地,所述步骤S6中,所述判断模块在对第一关键字区域的文字内容进行判断时,所述判断模块首先获取文字数量B并将其与预设名称的文字数量B0进行比对,并根据比对结果进行文字分析,其中,
[0020]当B≠B0时,所述判断模块判定发票无效,并停止进行文字内容比对;
[0021]当B=B0时,所述判断模块对第一关键字区域的文字内容逐个进行比对,其中,
[0022]所述判断模块按顺序将第一关键字区域的单个文字形状与预设名称中顺序相同的文字形状进行比对,将所述文字内容中与预设形状不同的文字作为差异文字,并获取差异文字数量D,所述判断模块将差异文字数量D与预设差异文字数量D0进行比对,并根据比对结果对第一关键字区域的文字内容进行判断,其中,
[0023]当D=0时,所述判断模块判定第一关键字区域的文字内容符合要求;
[0024]当0<D≤D0时,所述判断模块对所述文字内容中的差异文字进行详细分析比对;
[0025]当D>D0时,所述判断模块判定发票无效。
[0026]进一步地,当所述判断模块对所述文字内容中的差异文字进行详细分析比对时,所述判断模块将单个差异文字中存在差异的笔画数量F与预设差异笔画数量F0进行比对,并根据比对结果进行判定,其中,
[0027]当F>F0时,所述判断模块判定发票无效;
[0028]当F≤F0时,所述判断模块根据差异笔画的差异长度G进行下一步判定,其中,
[0029]当差异文字中的差异笔画的笔画方向存在差异时,所述判断模块判定发票无效;
[0030]当差异文字中的差异笔画仅笔画长度存在差异时,所述判断模块将差异笔画的差异长度G与预设差异长度G0进行比对,并根据比对结果进行判定,其中,
[0031]当G≤G0时,所述判断模块判定发票文字不清晰,并判定该差异文字与预设名称中对应的文字为相同文字,第一关键字区域文字内容符合要求;
[0032]当G>G0时,所述判断模块判定该差异文字与预设名称中对应的文字不同,判定发票无效。
[0033]进一步地,第一关键字区域文字内容符合要求后,所述判断模块获取第二关键字区域的文字数量C,再将第二关键字区域的文字数量C与预设税号的文字数量C0进行比对,并根据比对结果做出判定,其中,
[0034]当C≠C0时,所述判断模块判定发票无效;
[0035]当C=C0时,所述判断模块将第二关键字区域的文字内容与预设税号按照顺序单
独进行文字比对,将文字图形存在区别的文字作为区别文字,所述判断模块将区别文字数量M与预设区别文字数量M0进行比对,并根据比对结果进行判定,其中,
[0036]当M>M0时,所述判断模块判定发票无效;
[0037]当0<M≤M0时,所述判断模块根据区别文字的区别位置进行下一步判定;
[0038]当M=0时,所述判断模块判定第二关键字区域的文字内容符合要求。
[0039]进一步地,所述判断模块获取区别文字的区别位置,当区别文字的轮廓与预设税号中对应文字的形状相同,但区别文字的形状曲线存在间断时,所述判断模块判定发票文字不清晰,并判定该区别文字与预设税号中对应的文字为相同文字,第二关键字区域文字内容符合要求;
[0040]当区别文字的轮廓与预设税号中对应文字的形状存在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像分析的数据处理方法,其特征在于,包括,步骤S1,通过扫描设备对待报销发票进行扫描;步骤S2,通过图像采集模块获取所述扫描设备描到的发票图像;步骤S3,通过调整模块调整所述发票图像的方向;在进行调整时,所述调整模块根据发票图像的长宽比比值A对方向进行调整;步骤S4,通过分区模块将方向调整后的所述发票图像进行区域划分,形成若干关键字区域;步骤S5,通过获取模块获取所述关键字区域的文字内容;步骤S6,通过判断模块判断发票是否符合要求;步骤S7,通过存储模块对符合要求发票的所述文字内容进行存储;所述步骤S6中,所述判断模块在对发票图像的第一关键字区域的文字内容进行判断时,所述判断模块根据第一关键字区域的文字数量B对第一关键字区域进行初步判定,若第一关键字区域的文字数量B符合要求,则根据差异文字数量D做下一步判定,若差异文字数量D符合要求,则根据差异文字中存在差异的笔画数量F做下一步判定,若存在差异的笔画数量F符合要求,则根据差异笔画的差异长度G对发票图像的第一关键字区域进行最终判定;第一关键字区域文字内容符合要求后,所述判断模块根据发票图像的第二关键字区域的文字数量C对发票图像的第二关键字区域进行判定,当第二关键字区域的文字数量C符合要求时,则根据区别文字数量M做下一步判定,若区别文字数量M符合要求,则根据区别文字的轮廓对发票图像的第二关键字区域进行最终判定。2.根据权利要求1所述的基于图像分析的数据处理方法,其特征在于,所述步骤S3中,所述调整模块在对发票图像进行调整时,所述调整模块首先获取发票图像的长宽比比值A,并根据长宽比比值A对发票图像的方向进行调整,其中,当A<1时,所述调整模块将发票图像顺时针旋转90
°
至A>1;当A>1时,所述调整模块获取发票图像中部的椭圆图形区域,并根据椭圆图形区域的位置对发票图像调整,当椭圆图形区域位于发票图像上方时,不进行调整,当椭圆图形区域位于发票图像下方时,所述调整模块将发票图像顺时针旋转180
°
。3.根据权利要求1所述的基于图像分析的数据处理方法,其特征在于,所述步骤S4中,所述分区模块在对调整后的发票图像进行区域划分时,根据发票框架结构位置关系进行划分,并将购买方名称区域划分为第一关键字区域,将购买方纳税人识别号区域划分为第二关键字区域,将价税合计区域划分为第三关键字区域,将金额区域划分为第四关键字区域,将税额区域划分为第五关键字区域。4.根据权利要求1所述的基于图像分析的数据处理方法,其特征在于,所述步骤S6中,所述判断模块在对第一关键字区域的文字内容进行判断时,所述判断模块首先获取文字数量B并将其与预设名称的文字数量B0进行比对,并根据比对结果进行文字分析,其中,当B≠B0时,所述判断模块判定发票无效,并停止进行文字内容比对;当B=B0时,所述判断模块对第一关键字区域的文字内容逐个进行比对,其中,所述判断模块按顺序将第一关键字区域的单个文字形状与预设名称中顺序相同的文字形状进行比对,将所述文字内容中与预设形状不同的文字作为差异文字,并获取差异文
字数量D,所述判断模块将差异文字数量D与预设差异文字数量D0进行比对,并根据比对结果对第一关键字区域的文字内容进行判断,其中,当D=0时,所述判断模块判定第一关键字区域的文字内容符合要求;当0<D≤D0时,所述判断模块对所述文字内容中的差异文字进行详细分析比对;当D>D0时,所述判断模块判定发票无效。5.根据权利要求4所述的基于图像分析的数据处理方法,其特征在于,当所述判断模块对所述文字内容中的差异...

【专利技术属性】
技术研发人员:季伯阳季亚飞
申请(专利权)人:深圳市伯阳投资管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1