System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种识别PDF电子发票的方法技术_技高网

一种识别PDF电子发票的方法技术

技术编号:41148368 阅读:2 留言:0更新日期:2024-04-30 18:15
本发明专利技术公开了一种识别PDF电子发票的方法,包括:获取待测电子发票的PDF文档,对所述文档进行预处理,获取预处理后的文档;对所述预处理后的文档进行判断处理,获取判断后的文档;对所述判断后的文档识别解析二维码,进一步识别表格;对所述表格进行识别判断,进一步判断识别数据是否完整,数据完整情况下结合文本提取块,获取发票类型。本发明专利技术提高识别pdf电子发票成功率、准确率和效率;同时提取的商品信息,对发票进行分类。

【技术实现步骤摘要】

本专利技术属于计算机,尤其涉及一种识别pdf电子发票的方法。


技术介绍

1、随着电子发票的推行,越来越多的商家已经启用电子发票。作为员工报销的凭证,每到月末,企业的财务都要处理大量的电子发票的数据采集和信息处理工作。由此可见,快速准确地提取电子发票中的信息,是提高财务人员工作效率的关键技术。目前常见的自动识别电子发票有两种方法。一是把发票扫描生成图片格式的数据,通过ocr技术提取发票信息。一是通过分析文档数据提取发票信息。第一种方法,ocr技术对图片的质量有很高要求,越清晰的图片识别文字准确率越高,但生成和处理高质量图片对机器性能要求相对就高,处理时间也较长。发票里的图章、复杂汉字、字体大小都会影响ocr的准确率。第二种方法通过解析pdf文档获取unicode字符编码,通过编码提取文字信息。电子发票来源很多,第三方代发、不同平台预览下载等。不是正规渠道获取的发票,有字符编码不规范、排版混乱等问题。比如显示正常的发票,复制里面的文字黏贴到其他文档就会发现全是乱码,什么信息都识别不出来了。比如购买方和销售方位置对调了,购买方和销售方的信息也就对调了。比如线段异常,影响要通过线段划分区域来识别的信息。用第二种方法提取发票信息,需要超强的pdf文档解析能力,还要想办法解决数据异常带来的影响。


技术实现思路

1、为解决上述技术问题,本专利技术提出了一种识别pdf电子发票的方法,提高识别pdf电子发票成功率、准确率和效率;同时提取的商品信息,对发票进行分类。

2、为实现上述目的,本专利技术提供了一种识别pdf电子发票的方法,包括:

3、获取待测电子发票的pdf文档,对所述文档进行预处理,获取预处理后的文档;

4、对所述预处理后的文档进行判断处理,获取判断后的文档;

5、对所述判断后的文档识别解析二维码,进一步识别表格;

6、对所述表格进行识别判断,进一步判断识别数据是否完整,数据完整情况下结合文本提取块,获取发票类型。

7、可选的,对所述文档进行预处理,获取预处理后的文档包括:

8、对所述文档提取文字、形状和图片,获取预处理后的文档。

9、可选的,对所述预处理后的文档进行判断处理,获取判断后的文档包括:

10、对所述预处理后的文档判断字体编码是否混乱,若所述字体编码混乱则采用ocr识别所述预处理后的文档获取判断后的文档;若所述字体编码正常则正常输出,获取判断后的文档。

11、可选的,对所述判断后的文档识别解析二维码包括:

12、对所述判断后的文档优化图片数据;

13、对优化后的图片数据进行定位二维码,确定二维码的边缘和角度;

14、根据所述二维码提取qr code矩阵中的数据和误差校验码,并对数据进行纠错处理;

15、根据qr code的编码规则,将每个字符的二进制数据映射为相应的字符。

16、可选的,识别表格,对所述表格进行识别判断包括:

17、将发票分割成若干区域,通过对形状的分析,识别出表格,并发票进行对比判断识别是否正确,正确时分析表格提取数据。

18、可选的,对未识别出表格的发票分析文本块提取数据。

19、可选的,判断识别数据是否完整,数据完整情况下结合文本提取块,获取发票类型包括:所述表格提取数据在数据完整的情况下,获取发票类型;

20、所述表格提取数据在数据不完整的情况下,分析文本块提取数据,获取发票类型。

21、可选的,分析表格提取数据包括:

22、把文档分为表格内、表格外两大块;

23、表格外识别发票编码、发票号码、开票日期、校验码信息;

24、表格内根据格子划分区域从左到右、从上到下排序,把每个区域内的文字分别提取出来,做分列、分行、分块处理;

25、通过语义分析找到购买方、销售方、商品信息相关的格子,精确定位信息。

26、可选的,分析文本块提取数据包括:

27、遍历所有文本块,通过关键字定位信息大概位置,再找出处在同一行的所有文本块,根据距离和语义分析得出具体信息。

28、本专利技术技术效果:本专利技术公开了一种识别pdf电子发票的方法,以解析pdf文档内容流为主,ocr技术为辅,多种方案相结合,利用二维码识别、表格识别、语义分析模型等技术,提高识别pdf电子发票成功率、准确率和效率;同时,提取的商品信息,对发票进行分类。

本文档来自技高网...

【技术保护点】

1.一种识别PDF电子发票的方法,其特征在于,包括:

2.如权利要求1所述的识别PDF电子发票的方法,其特征在于,

3.如权利要求1所述的识别PDF电子发票的方法,其特征在于,

4.如权利要求1所述的识别PDF电子发票的方法,其特征在于,

5.如权利要求1所述的识别PDF电子发票的方法,其特征在于,

6.如权利要求5所述的识别PDF电子发票的方法,其特征在于,

7.如权利要求6所述的识别PDF电子发票的方法,其特征在于,

8.如权利要求7所述的识别PDF电子发票的方法,其特征在于,

9.如权利要求7所述的识别PDF电子发票的方法,其特征在于,

【技术特征摘要】

1.一种识别pdf电子发票的方法,其特征在于,包括:

2.如权利要求1所述的识别pdf电子发票的方法,其特征在于,

3.如权利要求1所述的识别pdf电子发票的方法,其特征在于,

4.如权利要求1所述的识别pdf电子发票的方法,其特征在于,

5.如权利要求1所述的识别pdf电...

【专利技术属性】
技术研发人员:张冀颖
申请(专利权)人:赛博爱思上海软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1