一种识别PDF电子发票的方法技术

技术编号:41148368 阅读:23 留言:0更新日期:2024-04-30 18:15
本发明专利技术公开了一种识别PDF电子发票的方法,包括:获取待测电子发票的PDF文档,对所述文档进行预处理,获取预处理后的文档;对所述预处理后的文档进行判断处理,获取判断后的文档;对所述判断后的文档识别解析二维码,进一步识别表格;对所述表格进行识别判断,进一步判断识别数据是否完整,数据完整情况下结合文本提取块,获取发票类型。本发明专利技术提高识别pdf电子发票成功率、准确率和效率;同时提取的商品信息,对发票进行分类。

【技术实现步骤摘要】

本专利技术属于计算机,尤其涉及一种识别pdf电子发票的方法。


技术介绍

1、随着电子发票的推行,越来越多的商家已经启用电子发票。作为员工报销的凭证,每到月末,企业的财务都要处理大量的电子发票的数据采集和信息处理工作。由此可见,快速准确地提取电子发票中的信息,是提高财务人员工作效率的关键技术。目前常见的自动识别电子发票有两种方法。一是把发票扫描生成图片格式的数据,通过ocr技术提取发票信息。一是通过分析文档数据提取发票信息。第一种方法,ocr技术对图片的质量有很高要求,越清晰的图片识别文字准确率越高,但生成和处理高质量图片对机器性能要求相对就高,处理时间也较长。发票里的图章、复杂汉字、字体大小都会影响ocr的准确率。第二种方法通过解析pdf文档获取unicode字符编码,通过编码提取文字信息。电子发票来源很多,第三方代发、不同平台预览下载等。不是正规渠道获取的发票,有字符编码不规范、排版混乱等问题。比如显示正常的发票,复制里面的文字黏贴到其他文档就会发现全是乱码,什么信息都识别不出来了。比如购买方和销售方位置对调了,购买方和销售方的信息也就对调了。比如线段异本文档来自技高网...

【技术保护点】

1.一种识别PDF电子发票的方法,其特征在于,包括:

2.如权利要求1所述的识别PDF电子发票的方法,其特征在于,

3.如权利要求1所述的识别PDF电子发票的方法,其特征在于,

4.如权利要求1所述的识别PDF电子发票的方法,其特征在于,

5.如权利要求1所述的识别PDF电子发票的方法,其特征在于,

6.如权利要求5所述的识别PDF电子发票的方法,其特征在于,

7.如权利要求6所述的识别PDF电子发票的方法,其特征在于,

8.如权利要求7所述的识别PDF电子发票的方法,其特征在于,p>

9.如权利...

【技术特征摘要】

1.一种识别pdf电子发票的方法,其特征在于,包括:

2.如权利要求1所述的识别pdf电子发票的方法,其特征在于,

3.如权利要求1所述的识别pdf电子发票的方法,其特征在于,

4.如权利要求1所述的识别pdf电子发票的方法,其特征在于,

5.如权利要求1所述的识别pdf电...

【专利技术属性】
技术研发人员:张冀颖
申请(专利权)人:赛博爱思上海软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1