一种面向财务报表图像的结构化信息提取方法技术

技术编号:29211438 阅读:23 留言:0更新日期:2021-07-10 00:48
本发明专利技术涉及金融行业图像处理技术领域,为一种面向财务报表图像的结构化信息提取方法,包括:S1,收集财务报表所有科目数据,对科目数据进行标准化科目类别标注,得到标准财务报表;S2,采取数据增广策略对所述标准财务报表进行科目增广;S3,对增广之后的数据进行fastText模型训练。在OCR解析存在部分错误的时候,如科目之间编辑距离很小、只有一字之差的情况,该方案能有效剔除清理此类错误,能泛化性更好地科目标准化,具有较好的鲁棒性,适于推广应用。尤其是针对数量较大的网站财务报表数据,其能快速进行收集、处理得到科目表述一致且错误少的科目数据信息。一致且错误少的科目数据信息。一致且错误少的科目数据信息。

【技术实现步骤摘要】
一种面向财务报表图像的结构化信息提取方法


[0001]本专利技术涉及金融行业图像处理
,具体涉及一种面向财务报表图像的结构化信息提取方法。

技术介绍

[0002]金融业务是经营风险的活动,投资和投行等金融业务对风险的管理逐步向量化分析和管理转变,数据是实现风险量化管理的基础。财务报表数据是金融机构开展业务的基础,在投资、投行、风控等领域,高效的获取高质量的数据能够获得业务优势。而公开披露的财务报表数据尚需依赖人工录入,无法实现高效和高质量。
[0003]OCR作为一种高效的图像文字识别技术算法,已得到大规模商业应用。财务报表数据经过OCR识别后,仅仅得到图像中的文字和数据,并不能直接得到结构化的数据,主要存在三大问题:1、每家公司的财务报表科目的表述方式不一致;2、因为印章等的不确定性干扰,OCR的科目文字识别不能保证全部识别正确;3、存在“其他”、“(一)”、“(说明)”等文字干扰;这些不确定因素给财务报表的科目标准化带来极大困扰。
[0004]基于正则匹配的方式只能解决固定格式的科目干扰问题,尤其是在OCR解析存在部分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向财务报表图像的结构化信息提取方法,其特征在于,包括:S1,收集财务报表所有科目数据,对科目数据进行标准化科目类别标注,得到标准财务报表;S2,采取数据增广策略对所述标准财务报表进行科目增广;S3,对增广之后的数据进行fastText模型训练。2.根据权利要求1所述的面向财务报表图像的结构化信息提取方法,其特征在于,所述数据增广策略包括随机剪裁科目文字、随机近义词替换科目文字及随机增添科目文字。3.根据权利要求1所述的面向财务报表图像的结构化信息提取方法,其特征在于,所述S3具体包括:利用自然语言处理(NLP)方式解决科目表述不一致问题。4.根据权利要求3所述的面向财务报表图像的结构化信息提取方法,其特征在于,所述自然语言处理(NLP)方式包括模型选择;所述模型选择包括针对当前任务特点,底层特征选取字向量(embedding),字向量维度设置为50维,科目字符最长长度为20;选取轻量级BiLSTM为模型骨干网络,隐层向量输出为256维度;前后向特征拼接形成512维特征向量,经过全连接层输出288维logit。5.根据权利要求4所述的面向财务报表图像的结构化信息提取方法,其特征在于,所述自然语言处理(NLP)方式包括损失函数,所述损失函数由两部分构成,一部分为正常的类别交叉熵损失,另一部分考虑不同科目与标准科...

【专利技术属性】
技术研发人员:王博涛李蒙阳陈磊勇孙亚茹宋寒刘建洋
申请(专利权)人:北京三行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1