金融类文档信息处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23558293 阅读:22 留言:0更新日期:2020-03-25 03:53
本发明专利技术实施例公开了一种金融类文档信息处理方法、装置、电子设备及存储介质,其中,该方法包括:将待审核的金融类文档,通过文档处理模块生成文档结构化数据;基于文档结构化数据生成财务科目结构化数据;将文档结构化数据输入到文字纠错模型中,输出纠错结果;将文档结构化数据输入到管理人员信息抽检校验模块,生成管理人员信息的校验结果;将财务科目结构化数据分别输入到财务指标公式计算模块、财务科目变化校验模块和财务报表抽取校验模块;分别生成财务指标公式的校验结果、财务科目变化的校验结果以及财务科目数据与对应基准数据的校验结果;将所有的校验结果以及纠错结果进行展示。本发明专利技术实施例提供的技术方案可以提高金融类文档审核的效率。

Information processing methods, devices, electronic equipment and storage media of financial documents

【技术实现步骤摘要】
金融类文档信息处理方法、装置、电子设备及存储介质
本专利技术实施例涉及文档处理
,尤其涉及一种金融类文档信息处理方法、装置、电子设备及存储介质。
技术介绍
金融类文档是一种包含大量非结构化财务数据的文本,例如年报、募集说明书等,主要由文本段落、表格数据、图片数据等组成。例如“2015年、2016年和2017年,发行人营业收入分别为23.31亿元、23.04亿元和24.90亿元,收入水平基本保持平稳,其中利息净收入分别为20.35亿元、21.44亿元和22.20亿元;手续费及佣金净收入分别为1.03亿元、0.89亿元和0.86亿元;投资收益分别为1.83亿元、0.52亿元和1.82亿元”。上述金融类文档的内容非常多,大多数金融类文档审核工作者都在纯手工地做重复且低技术含量的文档核查工作,工作任务非常繁重,由于内容较多,非常容易出现遗漏,并且效率低。
技术实现思路
本专利技术实施例提供了一种金融类文档信息处理方法,可以提高金融类文档审核的效率。第一方面,本专利技术实施例提供了一种金融类文档信息处理方法,包括:将待审核的金融类文档,通过文档处理模块生成文档结构化数据;将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据;将所述文档结构化数据输入到文字纠错模型中,输出纠错结果并进行存储;将所述文档结构化数据输入到管理人员信息抽检校验模块,对管理人员的信息进行校验,生成管理人员信息的校验结果;将所述财务科目结构化数据输入到财务指标公式计算模块,生成财务指标公式的校验结果;将所述财务科目结构化数据输入到财务科目变化校验模块中,对所述财务科目结构化数据中涉及财务科目变化的数据进行校验,生成财务科目变化的校验结果;将所述财务科目结构化数据输入到财务报表抽取校验模块,生成财务科目数据与对应基准数据的校验结果;将所有的校验结果以及所述纠错结果进行展示。第二方面,本专利技术实施例还提供了一种金融类文档信息处理装置,包括:文档结构化数据生成模块,用于将待审核的金融类文档,通过文档处理模块生成文档结构化数据;财务科目结构化数据生成模块,用于将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据;纠错模块,用于将所述文档结构化数据输入到文字纠错模型中,输出纠错结果并进行存储;第一校验模块,用于将所述文档结构化数据输入到管理人员信息抽检校验模块,对管理人员的信息进行校验,生成管理人员信息的校验结果;第二校验模块,用于将所述财务科目结构化数据输入到财务指标公式计算模块,生成财务指标公式的校验结果;第三校验模块,用于将所述财务科目结构化数据输入到财务科目变化校验模块中,对所述财务科目结构化数据中涉及财务科目变化的数据进行校验,生成财务科目变化的校验结果;第四校验模块,用于将所述财务科目结构化数据输入到财务报表抽取校验模块,生成财务科目数据与对应基准数据的校验结果;展示模块,用于将所有的校验结果以及所述纠错结果进行展示。第三方面,本专利技术实施例提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例提供的一种金融类文档信息处理方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本专利技术实施例提供的一种金融类文档信息处理方法。本专利技术实施例提供的技术方案,通过将金融类文档转化成文档结构化数据,并通过模型进行预处理以及财务科目抽取,将抽取结果进行归一化,基于归一化结果生成财务科目结构化数据;通过将文档结构化数据分别输入到文字纠错模型和管理人员信息抽检校验模块,得到纠错结果和管理人员信息的校验结果;通过将财务科目结构化数据分别输入到财务指标公式计算模块、财务科目变化校验模块和财务报表抽取校验模块,分别得到财务指标公式的校验结果、财务科目变化的校验结果和财务科目数据与对应基准数据的校验结果,并将所有校验结果和纠错结果进行展示,可以提高金融类文档的审核效率,节省人力成本,纠错的准确度高。附图说明图1a是本专利技术实施例提供的一种金融类文档信息处理方法流程图;图1b是本专利技术实施例提供的金融类文档转换成文档结构化数据流程图;图2a是本专利技术实施例提供的一种金融类文档信息处理方法流程图;图2b是本专利技术实施例提供的财务科目知识图谱示意图;图2c是本专利技术实施例提供的财务科目知识图谱构建流程图;图2d是本专利技术实施例提供的BiLSTM-CRF模型的结构示意图;图3是本专利技术实施例提供的一种金融类文档信息处理装置结构框图;图4是本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。图1a是本专利技术实施例提供的一种金融类文档信息处理方法流程图,所述方法可以由金融类文档信息处理装置来执行,所述装置可以由硬件和/或软件来实现,所述装置可以配置在计算机、服务器等电子设备中,所述方法可以应用于对金融类文档进行审核、抽取、批注的场景中。如图1a所示,本专利技术实施例提供的技术方案包括:S110:将待审核的金融类文档,通过文档处理模块生成文档结构化数据。在本专利技术实施例中,待审核的金融类文档可以包括PDF、word等形式的文档。具体的,可以调用相关软件模块(例如python、word2html、PyDocX等软件模块)将Word文档转换为HTML文件,再使用BeautifulSoup等HTML解析模块解析该HTML文件,生成文档结构化数据。其中,Word文档属于半结构化数据,需要提取word文档中的段落,表格,图片,再形成结构化数据。或者具体的,将Word文档调用Word转PDF软件模块生成PDF文件,调用PDF解析模块,解析出PDF文件中每个字符的信息,再生成文档结构化数据中间结果。由于PDF文件中没有段落的概念,基本都是一行一行的字符,所以对中间结果进行跨页、分页表格合并(根据表格所属的标题、位置信息进行合并)、分散子句(一行一行的字符)合并,最终生成文档结构化数据。其中,PDF文件中通常包含页眉和页脚,这些信息在对解析跨页的段落和表格有影响,页脚一般都是数字,会出现与该页内容最后的文字连接到一起,造成数字的误解析,需要在生成PDF的文档结构化数据时剔除这些信息。将待审核的金融类文档(word或者PDF形式)进行解析,转换成文档结构数据的流程可以参考图1b。其中本文档来自技高网...

【技术保护点】
1.一种金融类文档信息处理方法,其特征在于,包括:/n将待审核的金融类文档,通过文档处理模块生成文档结构化数据;/n将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据;/n将所述文档结构化数据输入到文字纠错模型中,输出纠错结果并进行存储;/n将所述文档结构化数据输入到管理人员信息抽检校验模块,对管理人员的信息进行校验,生成管理人员信息的校验结果;/n将所述财务科目结构化数据输入到财务指标公式计算模块,生成财务指标公式的校验结果;/n将所述财务科目结构化数据输入到财务科目变化校验模块中,对所述财务科目结构化数据中涉及财务科目变化的数据进行校验,生成财务科目变化的校验结果;/n将所述财务科目结构化数据输入到财务报表抽取校验模块,生成财务科目数据与对应基准数据的校验结果;/n将所有的校验结果以及所述纠错结果进行展示。/n

【技术特征摘要】
1.一种金融类文档信息处理方法,其特征在于,包括:
将待审核的金融类文档,通过文档处理模块生成文档结构化数据;
将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据;
将所述文档结构化数据输入到文字纠错模型中,输出纠错结果并进行存储;
将所述文档结构化数据输入到管理人员信息抽检校验模块,对管理人员的信息进行校验,生成管理人员信息的校验结果;
将所述财务科目结构化数据输入到财务指标公式计算模块,生成财务指标公式的校验结果;
将所述财务科目结构化数据输入到财务科目变化校验模块中,对所述财务科目结构化数据中涉及财务科目变化的数据进行校验,生成财务科目变化的校验结果;
将所述财务科目结构化数据输入到财务报表抽取校验模块,生成财务科目数据与对应基准数据的校验结果;
将所有的校验结果以及所述纠错结果进行展示。


2.根据权利要求1所述的方法,其特征在于,所述将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据,包括:
通过表格光学字符识别OCR模型识别所述文档结构化数据中的表格类图片,并识别所述图片中的表格,得到识别后的文档结构化数据;
将识别后的文档结构化数据输入到表格分类模型中,得到各个表格对应的主体以及所述表格的类别;
将文档结构化数据输入到释义表抽取模型得到报告期以及发行人的指代关系,生成解析后的结构化数据;
将所述文档结构化数据输入到段落分类模型中,得到各个段落对应的主体;
将所述文档结构化数据输入到表格财务科目抽取模型,抽取表格的财务科目以及对应的信息;
将所述文档结构化数据输入到文本财务科目抽取模型,抽取文本的财务科目以及对应的信息;
根据构建的财务科目知识图谱以及解析后的结构化数据,将抽取的财务科目以及对应信息进行归一化操作,并基于归一化的抽取结果、所述主体、以及表格类别生成最终的财务科目结构化数据。


3.根据权利要求2所述的方法,其特征在于,还包括:
以释义表中的二维数组中每一行文本段落以及释义表中的上文信息作为输入,以所述释义表中的指代关系作为输出,对释义表抽取模型进行训练;
以训练集中金融类文档对应的文档结构化数据中表格上文信息、以及表格的二维数据中每一行文本段为输入,以表格的类别以及表格对应的主体为输出,对表格分类模型进行训练;
以训练集中金融类文档对应的文档结构化数据的段落以及段落的上文信息为输入,以段落对应的主体为输出,对段落分类模型进行训练;
以训练集中金融类文档对应的文档结构化数据中财务科目描述段落为输入,以财务科目对应的信息为输出,对文本财务科目抽取模型进行训练;
以训练集中金融类文档对应的文档结构化数据中财务科目描述段落为输入,以财务科目对应的信息为输出,对表格财务科目抽取模型进行训练;
采用文档结构化数据中的表述正确的段落作为语料,对文字纠错模型进行训练;
采用训练集中金融类文档对应的文档结构化数据中的表格类图片作为语料,对表格OCR模型进行训练。


4.根据权利要求1所述的方法,其特征在于,所述将所述财务科目结构...

【专利技术属性】
技术研发人员:焦嘉烽陈运文张健王璐纪达麒王亚楠
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1