基于文字识别的财务报表识别方法及装置制造方法及图纸

技术编号:24889722 阅读:33 留言:0更新日期:2020-07-14 18:16
本发明专利技术提供了一种基于文字识别的财务报表识别方法及装置,基于文字识别的财务报表识别方法包括:接收所述财务报表的图像数据;对所述图像数据进行标准化处理以及预处理;利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。本发明专利技术将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。

【技术实现步骤摘要】
基于文字识别的财务报表识别方法及装置
本专利技术涉及信息
,具体涉及文字识别领域
,特别是涉及一种基于文字识别的财务报表识别方法及装置。
技术介绍
在传统信贷业务办理过程中,信息采集仍然主要依靠业务人员手工录入,特别是财务报表业务场景,每年需要手工录入数千张各行业公司财务报表,其表格数量多,金额数字量很大,效率低下并且容易出错。随着人工智能的不断发展,基于模式识别和深度学习文字识别技术日渐成熟。文字识别技术也大量的被运用到数据自动录入的场景,在信贷财务报表录入场景下,这些通用机制目前存在一些缺陷,主要包括:一是财务报表格式应企业而异,对于非通用格式的图像,识别后的文字提取造成困难;二是财务报表图像数量较多,识别耗时较长;三是财务指标名称没有统一标准,无法自动映射到系统标准财务报表模板中,准确率较低。
技术实现思路
针对现有技术中的问题,本专利技术提供的基于文字识别的财务报表识别方法及装置,将财务报表录入与文字识别技术相结合,能有效减少人工录入的工作量,提升信息采集的准确度。为解决上述技术问题,本专本文档来自技高网...

【技术保护点】
1.一种基于文字识别的财务报表识别方法,其特征在于,包括:/n接收所述财务报表的图像数据;/n对所述图像数据进行标准化处理以及预处理;/n利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。/n

【技术特征摘要】
1.一种基于文字识别的财务报表识别方法,其特征在于,包括:
接收所述财务报表的图像数据;
对所述图像数据进行标准化处理以及预处理;
利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别。


2.根据权利要求1所述的基于文字识别的财务报表识别方法,其特征在于,对所述图像数据进行标准化处理包括:
判断所述图像数据的dpi是否大于预设值、表格线是否完整以及倾斜角度是否小于预设角度。


3.根据权利要求2所述的基于文字识别的财务报表识别方法,其特征在于,对所述图像数据进行预处理包括:
对标准化后的图像数据一次进行二值化处理、倾斜矫正以及归一化;
对标准化之后的图像数据进行矩形卷积核处理。


4.根据权利要求1所述的基于文字识别的财务报表识别方法,其特征在于,所述利用预生成的CNN神经网络模型对处理后的图像数据进行文字识别,包括:
利用lsd算法对所述图像数据进行直线检测,以获取所述图像数据中的单元格位置以及所述单元格中的内容;
对所述单元格中的内容进行碎片化处理;
将碎片化之后的内容输入至所述CNN神经网络模型中。


5.一种基于文字识别的财务报表识别装置,其特征在于,包括:
图像数据接收单元,用于接收所述财务报表的图像数据;
图像数据处理单元,用于对所述图像数据进行标准化处理以及预处理;
文字识别单元,用于利用预生成的CNN神经网络模...

【专利技术属性】
技术研发人员:王建奇郑振雷钱江张力引
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1