【技术实现步骤摘要】
金融类文档信息处理方法、装置、电子设备及存储介质
本专利技术实施例涉及文档处理
,尤其涉及一种金融类文档信息处理方法、装置、电子设备及存储介质。
技术介绍
金融类文档是一种包含大量非结构化财务数据的文本,例如年报、募集说明书等,主要由文本段落、表格数据、图片数据等组成。例如“2015年、2016年和2017年,发行人营业收入分别为23.31亿元、23.04亿元和24.90亿元,收入水平基本保持平稳,其中利息净收入分别为20.35亿元、21.44亿元和22.20亿元;手续费及佣金净收入分别为1.03亿元、0.89亿元和0.86亿元;投资收益分别为1.83亿元、0.52亿元和1.82亿元”。上述金融类文档的内容非常多,大多数金融类文档审核工作者都在纯手工地做重复且低技术含量的文档核查工作,工作任务非常繁重,由于内容较多,非常容易出现遗漏,并且效率低。
技术实现思路
本专利技术实施例提供了一种金融类文档信息处理方法,可以提高金融类文档审核的效率。第一方面,本专利技术实施例提供了一种金融类文档信息处理方法,包括:将待审核的金融类文档,通过文档处理模块生成文档结构化数据;将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据;将所述文档结构化数据输入到文字纠错模型中,输出纠错结果并进行存储;将所述文档结构化数据输入到管理人员信息抽检校验模块,对管理人员的信息进行校验,生成管理人员信息 ...
【技术保护点】
1.一种金融类文档信息处理方法,其特征在于,包括:/n将待审核的金融类文档,通过文档处理模块生成文档结构化数据;/n将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据;/n将所述文档结构化数据输入到文字纠错模型中,输出纠错结果并进行存储;/n将所述文档结构化数据输入到管理人员信息抽检校验模块,对管理人员的信息进行校验,生成管理人员信息的校验结果;/n将所述财务科目结构化数据输入到财务指标公式计算模块,生成财务指标公式的校验结果;/n将所述财务科目结构化数据输入到财务科目变化校验模块中,对所述财务科目结构化数据中涉及财务科目变化的数据进行校验,生成财务科目变化的校验结果;/n将所述财务科目结构化数据输入到财务报表抽取校验模块,生成财务科目数据与对应基准数据的校验结果;/n将所有的校验结果以及所述纠错结果进行展示。/n
【技术特征摘要】
1.一种金融类文档信息处理方法,其特征在于,包括:
将待审核的金融类文档,通过文档处理模块生成文档结构化数据;
将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据;
将所述文档结构化数据输入到文字纠错模型中,输出纠错结果并进行存储;
将所述文档结构化数据输入到管理人员信息抽检校验模块,对管理人员的信息进行校验,生成管理人员信息的校验结果;
将所述财务科目结构化数据输入到财务指标公式计算模块,生成财务指标公式的校验结果;
将所述财务科目结构化数据输入到财务科目变化校验模块中,对所述财务科目结构化数据中涉及财务科目变化的数据进行校验,生成财务科目变化的校验结果;
将所述财务科目结构化数据输入到财务报表抽取校验模块,生成财务科目数据与对应基准数据的校验结果;
将所有的校验结果以及所述纠错结果进行展示。
2.根据权利要求1所述的方法,其特征在于,所述将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据,包括:
通过表格光学字符识别OCR模型识别所述文档结构化数据中的表格类图片,并识别所述图片中的表格,得到识别后的文档结构化数据;
将识别后的文档结构化数据输入到表格分类模型中,得到各个表格对应的主体以及所述表格的类别;
将文档结构化数据输入到释义表抽取模型得到报告期以及发行人的指代关系,生成解析后的结构化数据;
将所述文档结构化数据输入到段落分类模型中,得到各个段落对应的主体;
将所述文档结构化数据输入到表格财务科目抽取模型,抽取表格的财务科目以及对应的信息;
将所述文档结构化数据输入到文本财务科目抽取模型,抽取文本的财务科目以及对应的信息;
根据构建的财务科目知识图谱以及解析后的结构化数据,将抽取的财务科目以及对应信息进行归一化操作,并基于归一化的抽取结果、所述主体、以及表格类别生成最终的财务科目结构化数据。
3.根据权利要求2所述的方法,其特征在于,还包括:
以释义表中的二维数组中每一行文本段落以及释义表中的上文信息作为输入,以所述释义表中的指代关系作为输出,对释义表抽取模型进行训练;
以训练集中金融类文档对应的文档结构化数据中表格上文信息、以及表格的二维数据中每一行文本段为输入,以表格的类别以及表格对应的主体为输出,对表格分类模型进行训练;
以训练集中金融类文档对应的文档结构化数据的段落以及段落的上文信息为输入,以段落对应的主体为输出,对段落分类模型进行训练;
以训练集中金融类文档对应的文档结构化数据中财务科目描述段落为输入,以财务科目对应的信息为输出,对文本财务科目抽取模型进行训练;
以训练集中金融类文档对应的文档结构化数据中财务科目描述段落为输入,以财务科目对应的信息为输出,对表格财务科目抽取模型进行训练;
采用文档结构化数据中的表述正确的段落作为语料,对文字纠错模型进行训练;
采用训练集中金融类文档对应的文档结构化数据中的表格类图片作为语料,对表格OCR模型进行训练。
4.根据权利要求1所述的方法,其特征在于,所述将所述财务科目结构...
【专利技术属性】
技术研发人员:焦嘉烽,陈运文,张健,王璐,纪达麒,王亚楠,
申请(专利权)人:达而观信息科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。