【技术实现步骤摘要】
一种面向财务报表图像的结构化信息提取方法
[0001]本专利技术涉及金融行业图像处理
,具体涉及一种面向财务报表图像的结构化信息提取方法。
技术介绍
[0002]金融业务是经营风险的活动,投资和投行等金融业务对风险的管理逐步向量化分析和管理转变,数据是实现风险量化管理的基础。财务报表数据是金融机构开展业务的基础,在投资、投行、风控等领域,高效的获取高质量的数据能够获得业务优势。而公开披露的财务报表数据尚需依赖人工录入,无法实现高效和高质量。
[0003]OCR作为一种高效的图像文字识别技术算法,已得到大规模商业应用。财务报表数据经过OCR识别后,仅仅得到图像中的文字和数据,并不能直接得到结构化的数据,主要存在三大问题:1、每家公司的财务报表科目的表述方式不一致;2、因为印章等的不确定性干扰,OCR的科目文字识别不能保证全部识别正确;3、存在“其他”、“(一)”、“(说明)”等文字干扰;这些不确定因素给财务报表的科目标准化带来极大困扰。
[0004]基于正则匹配的方式只能解决固定格式的科目干扰问题,尤其是 ...
【技术保护点】
【技术特征摘要】
1.一种面向财务报表图像的结构化信息提取方法,其特征在于,包括:S1,收集财务报表所有科目数据,对科目数据进行标准化科目类别标注,得到标准财务报表;S2,采取数据增广策略对所述标准财务报表进行科目增广;S3,对增广之后的数据进行fastText模型训练。2.根据权利要求1所述的面向财务报表图像的结构化信息提取方法,其特征在于,所述数据增广策略包括随机剪裁科目文字、随机近义词替换科目文字及随机增添科目文字。3.根据权利要求1所述的面向财务报表图像的结构化信息提取方法,其特征在于,所述S3具体包括:利用自然语言处理(NLP)方式解决科目表述不一致问题。4.根据权利要求3所述的面向财务报表图像的结构化信息提取方法,其特征在于,所述自然语言处理(NLP)方式包括模型选择;所述模型选择包括针对当前任务特点,底层特征选取字向量(embedding),字向量维度设置为50维,科目字符最长长度为20;选取轻量级BiLSTM为模型骨干网络,隐层向量输出为256维度;前后向特征拼接形成512维特征向量,经过全连接层输出288维logit。5.根据权利要求4所述的面向财务报表图像的结构化信息提取方法,其特征在于,所述自然语言处理(NLP)方式包括损失函数,所述损失函数由两部分构成,一部分为正常的类别交叉熵损失,另一部分考虑不同科目与标准科...
【专利技术属性】
技术研发人员:王博涛,李蒙阳,陈磊勇,孙亚茹,宋寒,刘建洋,
申请(专利权)人:北京三行科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。