【技术实现步骤摘要】
一种票据文件的解析方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种票据文件的解析方法和装置。
技术介绍
[0002]随着电子发票的普及,企业为开展业务需要从电子发票上读取相关数据信息,因此数据读取的准确性,对业务的正常运转起着非常重要的作用。由于电子发票通常来自于多个开票方,且各开票方在生成电子发票时所使用的模板不同,导致需要针对各开票方的电子发票分别进行解析;同时,由于电子发票数据不规范,造成识别失败、识别不准确。
技术实现思路
[0003]有鉴于此,本专利技术实施例提供一种票据文件的解析方法和装置,该方法预先为开票方构建票据解析模板,在需要对待解析票据文件进行解析时,通过获取与待解析票据文件相匹配的票据解析模板,进而将票据解析模板中各数据项对应解析区域的位置转换为相同数据项在待解析票据文件的位置,使得可以基于该位置读取待解析票据文件的数据信息,完成票据解析,通用性好。
[0004]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种票据文件的解析方法。
[0005] ...
【技术保护点】
【技术特征摘要】
1.一种票据文件的解析方法,其特征在于,包括:接收待解析票据文件,根据所述待解析票据文件的目标对象数据,查询与所述待解析票据文件相匹配的票据解析模板;获取所述票据解析模板的配置信息,根据所述配置信息中的解析器信息,创建对应的解析器实例;其中,所述配置信息包括所述票据解析模板的解析区域的第一位置信息和所述解析器信息,所述解析区域对应所述票据解析模板的数据项;使用所述解析器实例,将所述第一位置信息转化为相同数据项在所述待解析票据文件的第二位置信息,读取所述第二位置信息处所记载的数据信息,完成解析。2.根据权利要求1所述的方法,其特征在于,所述第一位置信息包括所述解析区域的顶点坐标;所述将所述第一位置信息转化为相同数据项在所述待解析票据文件的第二位置信息,包括:根据所述解析区域的顶点坐标,以及所述票据解析模板的第一总宽度和第一总高度,计算相应数据项在所述票据解析模板的起始位置占比、数据宽度占比和数据高度占比;根据所述数据项在所述票据解析模板的起始位置占比、数据宽度占比和数据高度占比,以及所述待解析票据文件的第二总宽度和第二总高度,计算相同数据项在待解析票据文件的第二位置信息。3.根据权利要求2所述的方法,其特征在于,所述票据解析模板包括由票据基本信息构成的主票区和由票据明细信息构成的明细区,位于所述主票区的解析区域对应一个所述数据项,位于所述明细区的解析区域对应多个所述数据项;所述计算相应数据项在所述票据解析模板的起始位置占比、数据宽度占比和数据高度占比,包括:在所述解析区域位于所述主票区的情况下,将所述解析区域的起始横坐标、起始纵坐标分别与所述第一总宽度、所述第一总高度作比,得到所述相应数据项在所述票据解析模板的起始位置占比;以及计算所述解析区域的宽度和高度,将所述解析区域的宽度、高度分别与所述第一总宽度、所述第一总高度作比,得到所述相应数据项在所述票据解析模板的数据宽度占比和数据高度占比;在所述解析区域位于所述明细区的情况下,计算所述解析区域的宽度和高度,根据所述解析器信息的总行数和总列数,计算每个所述数据项的宽度和高度;以及根据所述解析区域的起始横坐标、起始纵坐标和每个所述数据项的宽度和高度,计算每个所述数据项在所述票据解析模板的起始位置占比、数据宽度占比和数据高度占比。4.根据权利要求1所述的方法,其特征在于,所述票据解析模板包括由票据基本信息构成的主票区和由票据明细信息构成的明细区;所述解析器信息包括解析器类型,所述主票区的解析器类型与所述明细区的解析器类型不同;所述根据所述配置信息中的解析器信息,创建对应的解析器实例,包括:根据所述解析器信息的解析器类型,将所述配置信息划分为基本配置和明细配置;根据所述基本配置和所述明细配置,分别创建对应的主要解析实例和明细解析实例,所述主要解析实例和所述明细解析实例构成解析器实例;
所述使用所述解析器实...
【专利技术属性】
技术研发人员:邢志彩,刘坤,
申请(专利权)人:泰康保险集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。