一种自动定位财务主表的方法、装置及电子设备制造方法及图纸

技术编号:36220289 阅读:53 留言:0更新日期:2023-01-04 12:18
本说明书提供一种自动定位财务主表的方法、装置及电子设备,该方法包括:识别各页面上的文字信息和表格要素信息;对各表格执行以下匹配操作,并根据匹配结果确定表格对应的主表类型:将当前表格中各单元格内的文字信息与财务科目库进行匹配,得到当前表格内各科目所对应的主表类型;和/或,将当前表格外预定范围内的文字信息与各主表类型的名称进行正则匹配,得到匹配的主表类型;统计财务报告中各页面的页码、各页面上的表格所对应的主表类型;将页面上表格对应有主表类型的多个连续页面的统计结果进行聚合;根据聚合结果,确定财务主表所在的页码范围。本方案能够自动定位财务主表的位置,计算量较小,且定位速度快、定位的准确性较高。性较高。性较高。

【技术实现步骤摘要】
一种自动定位财务主表的方法、装置及电子设备


[0001]本申请涉及自动化
,特别涉及一种自动定位财务主表的方法、装置及电子设备。

技术介绍

[0002]企业通常需要定期提交财务报告,财务报告的主要部分为财务报表。财务报表是反映企业或预算单位一定时期资金、利润状况的会计报表,在种类、格式、编报要求等方面具有统一的规定。财务报表包括主表、附表和附注,其中主表包括资产负债表、利润表、现金流量表,主表所提供的会计信息比较全面、完整,能基本满足各种信息需要者的不同要求。附表是对主表中不能或难以详细反映的一些重要信息做补充说明的报表,例如附表包括利润分配表、主营业务收支明细表等。附注是对会计报表的编制基础、编制原理和方法及主要项目所做的解释和进一步说明,以便报表的使用者全面、正确地理解会计报表,例如,附注包括对应收账款的账龄分析、报表项目的异常变化及其产生原因的说明等。由此可见,一份财务报告中最具价值的内容为财务主表,在一些场景下通常希望能够从几百页的财务报告中快速找到财务主表的位置。
[0003]然而,财务报告通常为不可编辑的格式(例如pdf格式),无法通过查看报告的软件自动查找的方式快速找到财务主表。为此,现有技术通常采用以下两种方法来定位财务主表的位置:1、通过人工定位财务主表所在的页码范围,并将页码范围标记在财务报告中,以便报告使用者快速找到财务主表的位置;2、将财务报告整体输入预先训练的分类模型,通过分类模型识别财务报告的每页中的报表属于主表中哪一类型,并统计得到主表所在的页面范围,将页码范围标记在财务报告中,以便报告使用者快速找到财务主表的位置。
[0004]然而,上述人工方式所耗费的人力资源较大,上述分类模型在训练时必须对大量财务报告样本中每个报告样本的每一页做标记,也需要耗费大量人力资源;此外,采用分类模型的主表定位方式计算量较大、耗时较长,还会存在分类不准确的情形。

技术实现思路

[0005]本申请的目的是提供一种自动定位财务主表的方法、装置及电子设备,以解决现有财务主表定位方法计算量较大、耗时较长、不准确的问题。
[0006]为解决上述技术问题,本说明书第一方面提供一种自动定位财务主表的方法,包括:获取预定格式的财务报告;识别所述财务报告中各页面上的文字信息和表格要素信息;对各表格执行以下匹配操作,并根据匹配结果确定表格对应的主表类型:将当前表格中各单元格内的文字信息与财务科目库进行匹配,得到当前表格内各科目所对应的主表类型;和/或,将当前表格外预定范围内的文字信息与各主表类型的名称进行正则匹配,得到匹配的主表类型;统计所述财务报告中各页面的页码、各页面上的表格所对应的主表类型;将页面上表格对应有主表类型的多个连续页面的统计结果进行聚合;根据聚合结果,确定所述财务主表所在的页码范围。
[0007]在一些实施例中,在对各表格执行匹配操作,并根据匹配结果确定表格对应的主表类型之前,还包括:确定各页面上的表格个数;确定表格个数大于3的页面上没有财务主表。
[0008]在一些实施例中,将当前表格中各单元格内的文字信息与财务科目库进行匹配,得到当前表格内各科目所对应的主表类型,包括:对当前表格中包含文字信息的各单元格,执行如下操作:将当前单元格的文字信息与财务科目库进行匹配,确定财务科目库中是否存在目标科目与当前单元格的文字信息一致;在存在的情况下,确定在财务科目库中所述目标科目对应的主表类型;将所述目标科目对应的主表类型作为当前单元格内的文字信息所对应的主表类型;统计各主表类型所对应的单元格的个数;将对应的单元格个数大于或等于预定阈值的主表类型作为当前表格所对应的主表类型。
[0009]在一些实施例中,在对各表格执行各匹配操作,均无法根据匹配结果确定表格对应的主表类型之后,还包括:确定表格是否为当前页面第一个表格;若是,则查找上一页面的底部是否为表格;若是,则确定上一页面底部的表格所对应的主表类型作为当前页面顶部的表格所对应的主表类型。
[0010]在一些实施例中,所述方法还包括:在上一页面底部的表格所对应的主表类型无法确定的情况下,将上一页面底部的表格与当前页面顶部的表格合并为一个表格,并将合并表中各单元格内的文字信息与财务科目库进行匹配,得到合并表中各科目所对应的主表类型,根据匹配结果确定合并表对应的主表类型。
[0011]在一些实施例中,所述方法还包括:若上一页面的底部不是表格,将上一页面底部的文字信息与各主表类型的名称进行正则匹配;将匹配到的主表类型作为当前页面顶部的表格所对应的主表类型。
[0012]在一些实施例中,在根据聚合结果,确定所述财务主表所在的页码范围之前,还包括:对聚合结果中各页码范围执行如下操作:判断当前页码范围所对应的第一个主表的类型是否为预定类型;若不是,则确定当前页码范围不是财务主表所在的页码范围。
[0013]在一些实施例中,根据聚合结果,确定所述财务主表所在的页码范围,包括:确定聚合结果中的各页码范围中对应主表类型最多的目标页码范围;将目标页码范围作为财务主表所在的页面范围。
[0014]本说明书第二方面提供一种自动定位财务主表的装置,包括:获取单元,用于获取预定格式的财务报告;识别单元,用于识别所述财务报告中各页面上的文字信息和表格要素信息;第一匹配单元,用于对各表格执行以下匹配操作,并根据匹配结果确定表格对应的主表类型:将当前表格中各单元格内的文字信息与财务科目库进行匹配,得到当前表格内各科目所对应的主表类型;和/或,将当前表格外预定范围内的文字信息与各主表类型的名称进行正则匹配,得到匹配的主表类型;统计单元,用于统计所述财务报告中各页面的页码、各页面上的表格所对应的主表类型;聚合单元,用于将页面上表格对应有主表类型的多个连续页面的统计结果进行聚合;第一确定单元,用于根据聚合结果,确定所述财务主表所在的页码范围。
[0015]在一些实施例中,所述装置还包括:第二确定单元,用于确定各页面上的表格个数;第二确定单元,用于确定表格个数大于3的页面上没有财务主表。
[0016]在一些实施例中,所述第一匹配单元包括:处理子单元,用于对当前表格中包含文
字信息的各单元格,执行如下操作:将当前单元格的文字信息与财务科目库进行匹配,确定财务科目库中是否存在目标科目与当前单元格的文字信息一致;在存在的情况下,确定在财务科目库中所述目标科目对应的主表类型;将所述目标科目对应的主表类型作为当前单元格内的文字信息所对应的主表类型;统计子单元,用于统计各主表类型所对应的单元格的个数;第一确定子单元,用于将对应的单元格个数大于或等于预定阈值的主表类型作为当前表格所对应的主表类型。
[0017]在一些实施例中,所述装置还包括:第三确定单元,用于确定表格是否为当前页面第一个表格;查找单元,用于若是,则查找上一页面的底部是否为表格;第四确定单元,用于若是,则确定上一页面底部的表格所对应的主表类型作为当前页面顶部的表格所对应的主表类型。
[0018]在一些实施例中,所述装置还包括:处理单元,用于在上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动定位财务主表的方法,其特征在于,包括:获取预定格式的财务报告;识别所述财务报告中各页面上的文字信息和表格要素信息;对各表格执行以下匹配操作,并根据匹配结果确定表格对应的主表类型:将当前表格中各单元格内的文字信息与财务科目库进行匹配,得到当前表格内各科目所对应的主表类型;和/或,将当前表格外预定范围内的文字信息与各主表类型的名称进行正则匹配,得到匹配的主表类型;统计所述财务报告中各页面的页码、各页面上的表格所对应的主表类型;将页面上表格对应有主表类型的多个连续页面的统计结果进行聚合;根据聚合结果,确定所述财务主表所在的页码范围。2.根据权利要求1所述的方法,其特征在于,在对各表格执行匹配操作,并根据匹配结果确定表格对应的主表类型之前,还包括:确定各页面上的表格个数;确定表格个数大于3的页面上没有财务主表。3.根据权利要求1所述的方法,其特征在于,将当前表格中各单元格内的文字信息与财务科目库进行匹配,得到当前表格内各科目所对应的主表类型,包括:对当前表格中包含文字信息的各单元格,执行如下操作:将当前单元格的文字信息与财务科目库进行匹配,确定财务科目库中是否存在目标科目与当前单元格的文字信息一致;在存在的情况下,确定在财务科目库中所述目标科目对应的主表类型;将所述目标科目对应的主表类型作为当前单元格内的文字信息所对应的主表类型;统计各主表类型所对应的单元格的个数;将对应的单元格个数大于或等于预定阈值的主表类型作为当前表格所对应的主表类型。4.根据权利要求1所述的方法,其特征在于,在对各表格执行各匹配操作,均无法根据匹配结果确定表格对应的主表类型之后,还包括:确定表格是否为当前页面第一个表格;若是,则查找上一页面的底部是否为表格;若是,则确定上一页面底部的表格所对应的主表类型作为当前页面顶部的表格所对应的主表类型。5.根据权利要求4所述的方法,其特征在于,还包括:在上一页面底部的表格所对应的主表类型无法确定的情况下,将上一页面底部的表格与当前页面顶部的表格合并为一个表格,并将合并表中各单元格内的文字信息与财务科目库进行匹配,得到合并表中各科目所对应的主表类型,根据匹配结果确定合...

【专利技术属性】
技术研发人员:冯程熊博颖谢小容车越云吴昀蓁郑邦东
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1