一种面向财务报表图像的结构化信息提取方法技术

技术编号：29211438 阅读：23 留言：0更新日期：2021-07-10 00:48

本发明专利技术涉及金融行业图像处理技术领域，为一种面向财务报表图像的结构化信息提取方法，包括：S1，收集财务报表所有科目数据，对科目数据进行标准化科目类别标注，得到标准财务报表；S2，采取数据增广策略对所述标准财务报表进行科目增广；S3，对增广之后的数据进行fastText模型训练。在OCR解析存在部分错误的时候，如科目之间编辑距离很小、只有一字之差的情况，该方案能有效剔除清理此类错误，能泛化性更好地科目标准化，具有较好的鲁棒性，适于推广应用。尤其是针对数量较大的网站财务报表数据，其能快速进行收集、处理得到科目表述一致且错误少的科目数据信息。一致且错误少的科目数据信息。一致且错误少的科目数据信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向财务报表图像的结构化信息提取方法

[0001]本专利技术涉及金融行业图像处理
，具体涉及一种面向财务报表图像的结构化信息提取方法。

技术介绍

[0002]金融业务是经营风险的活动，投资和投行等金融业务对风险的管理逐步向量化分析和管理转变，数据是实现风险量化管理的基础。财务报表数据是金融机构开展业务的基础，在投资、投行、风控等领域，高效的获取高质量的数据能够获得业务优势。而公开披露的财务报表数据尚需依赖人工录入，无法实现高效和高质量。
[0003]OCR作为一种高效的图像文字识别技术算法，已得到大规模商业应用。财务报表数据经过OCR识别后，仅仅得到图像中的文字和数据，并不能直接得到结构化的数据，主要存在三大问题：1、每家公司的财务报表科目的表述方式不一致；2、因为印章等的不确定性干扰，OCR的科目文字识别不能保证全部识别正确；3、存在“其他”、“(一)”、“(说明)”等文字干扰；这些不确定因素给财务报表的科目标准化带来极大困扰。
[0004]基于正则匹配的方式只能解决固定格式的科目干扰问题，尤其是...

【技术保护点】

【技术特征摘要】
1.一种面向财务报表图像的结构化信息提取方法，其特征在于，包括：S1，收集财务报表所有科目数据，对科目数据进行标准化科目类别标注，得到标准财务报表；S2，采取数据增广策略对所述标准财务报表进行科目增广；S3，对增广之后的数据进行fastText模型训练。2.根据权利要求1所述的面向财务报表图像的结构化信息提取方法，其特征在于，所述数据增广策略包括随机剪裁科目文字、随机近义词替换科目文字及随机增添科目文字。3.根据权利要求1所述的面向财务报表图像的结构化信息提取方法，其特征在于，所述S3具体包括：利用自然语言处理(NLP)方式解决科目表述不一致问题。4.根据权利要求3所述的面向财务报表图像的结构化信息提取方法，其特征在于，所述自然语言处理(NLP)方式包括模型选择；所述模型选择包括针对当前任务特点，底层特征选取字向量(embedding)，字向量维度设置为50维，科目字符最长长度为20；选取轻量级BiLSTM为模型骨干网络，隐层向量输出为256维度；前后向特征拼接形成512维特征向量，经过全连接层输出288维logit。5.根据权利要求4所述的面向财务报表图像的结构化信息提取方法，其特征在于，所述自然语言处理(NLP)方式包括损失函数，所述损失函数由两部分构成，一部分为正常的类别交叉熵损失，另一部分考虑不同科目与标准科...

【专利技术属性】
技术研发人员：王博涛，李蒙阳，陈磊勇，孙亚茹，宋寒，刘建洋，
申请(专利权)人：北京三行科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人