一种图像格式财报文档的数据抽取方法技术

技术编号:30895099 阅读:13 留言:0更新日期:2021-11-22 23:37
本发明专利技术公开了一种图像格式财报文档的数据抽取方法,所述数据抽取方法包括:抽取科目数据;通过配置的财报业务公式对抽取到的科目数据进行校验;对于校验后不相符的科目数据采取若干纠错方法纠错,所述纠错方法包括:小数点纠错、结合ocr候选集纠错、结合财报业务公式与未匹配项纠错、基于神经网络纠错、基于蚁群算法的纠错。算法的纠错。算法的纠错。

【技术实现步骤摘要】
一种图像格式财报文档的数据抽取方法


[0001]本专利技术属于文本处理领域,具体涉及一种图像格式财报文档的数据抽取方法。

技术介绍

[0002]随着云计算、大数据等新兴技术不断发展,金融需求旺盛,线上金融业务发展快速,金融信息系统每天承载的交易量巨大并高速攀升;另一方面,金融业处于一个加速变化、竞争日益激烈的环境中,各金融机构及互联网企业都希望通过业务集中和数据集中扩大业务规模,金融行业的信息化建设日益提上日程,与此同时,金融行业很看重的财报审计,却仍旧使用传统的人工输入与校对,浪费人力,同时,因为模板的多样化,需要富含经验的人员进行校验,因此,一套成熟自动化的财报录入校对系统就很有必要。存在问题包括:
[0003]1财报科目的多样化
[0004]财报科目多样性,格式多样性导致,不同企业,不同机构拥有大量不同的财报格式。且往往针对统一含义的科目,不同机构具有不同的表述。
[0005]2样本质量问题导致ocr的识别问题
[0006]因为一些pdf样本质量问题,导致ocr识别文字,数字时出现误差。常见譬如:数字识别成另一个相似数字,或者识别成汉字,或者一些其他字符;千分位符、小数点漏识别;汉字识别成乱码,汉字漏识别。
[0007]3财报正负号计算的多样化
[0008]某些科目数字在引入负数的情况下,同时科目本身也会有“加/减”这种代表运算的字眼,在这两种约束作用下,计算的方式有很多灵活性。

技术实现思路

[0009]针对现有技术中存在的问题,本专利技术提供一种图像格式财报文档的数据抽取方法。
[0010]为实现上述目的,本专利技术采用以下技术方案:
[0011]一种图像格式财报文档的数据抽取方法,所述数据抽取方法包括:抽取科目数据;通过配置的财报业务公式对抽取到的科目数据进行校验;对于校验后不相符的科目数据采取若干纠错方法纠错,所述纠错方法包括:小数点纠错、结合ocr候选集纠错、结合财报业务公式与未匹配项纠错、基于神经网络纠错、基于蚁群算法的纠错。
[0012]优选地,所述科目数据以三元组的形式存储,包括:科目、科目时间、科目金额。
[0013]优选地,所述抽取科目数据包括:通过抽取模板中的科目字符串匹配出待抽取文档中识别出的科目,从而获取该科目对应的科目时间和科目金额。
[0014]优选地,通过领域词典配置同义词字典,对科目字符串进行部分或者全部的替换。
[0015]优选地,所述小数点纠错包括:对上下数据进行预处理;求出所有列的小数占比;根据占比推断数值的小数点。
[0016]优选地,所述结合ocr候选集纠错包括:通过ocr识别出的科目金额的高概率候选
集,进行替换验算是否平衡。
[0017]优选地,所述结合财报业务公式与未匹配项纠错包括:对财报业务公式、未匹配原文进行预处理;构造未匹配项的所有组合;根据公式差值求出最佳组合。
[0018]优选地,所述结合财报业务公式与未匹配项纠错还包括:对财报业务公式、公式科目数值进行预处理;构造科目正负值的所有组合;根据公式差值求出最佳组合。
[0019]优选地,所述基于神经网络纠错包括:根据已有语料,构建数据集;根据科目上下文语义,位置等特征训练推理模型;推理结果结合金额数值验证公式正确性,成功则应用。
[0020]优选地,所述基于蚁群算法的纠错包括:基于未匹配项的科目金额信息、科目信息特征,进行预处理,过滤垃圾字符;通过已有信息构造蚁群算法;根据公式差值求出最佳前k个组合;根据语料库信息,计算编辑距离,过滤不符合的组合;根据所有科目相似度打分、排序,得出最优解。
[0021]与现有技术相比,本专利技术的有益效果为:
[0022]1利用领域业务知识构建领域词典进行匹配;
[0023]2结合ocr的数据,及模板验证所用的公式,未匹配项,来应用多种纠错策略,针对ocr识别问题与财报的不规范问题,财报结构多样化问题,计算方式多样化问题;
[0024]3针对无法配平的公式,利用未匹配项结合算法,得出公式配平建议项。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术实施例的整体流程示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0029]本实施例提出一种抽取方法,与多种纠错策略相结合的抽取审核系统,系统使用多种抽取匹配方法,多种纠错方式,并使用通用财报公式来纠错ocr识别问题的系统。
[0030]抽取纠错系统主要分为四部分:抽取模块,校验模块,救援策略模块,数据导出模块。
[0031]5.1抽取模块
[0032]抽取模块的主要作用是抽出三元组(时间、科目、金额,eg:2019年、营业成本、10亿元),方便之后的校验与救援流程。
[0033]抽取流程:
[0034]①
.进行科目数据清洗,去除一些干扰字符项目。
[0035]②
.应用抽取策略抽取数据。
[0036]常见抽取策略
[0037]①
.科目直接进行字符串级比较匹配。
[0038]②
.利用领域词典,配置同义词词典。
[0039]5.2校验模块
[0040]利用业务人员配置的财报业务公式进行计算校验,此模块的主要作用是,通过校验结果,公式是否平衡,公式等号两边的代数和差值,来对抽取结果进行反馈。
[0041]5.3救援纠错模块
[0042]救援纠错模块,包括五个部分:
[0043]①
小数点纠错。
[0044]②
结合ocr候选集纠错。
[0045]③
结合公式与未匹配项。
[0046]④
基于神经网络纠错。
[0047]⑤
蚁群算法。
[0048]救援纠错策略主要分为以下几部分:
[0049]5.3.1小数点纠错
[0050]对于一些因为ocr识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像格式财报文档的数据抽取方法,其特征在于,所述数据抽取方法包括:抽取科目数据;通过配置的财报业务公式对抽取到的科目数据进行校验;对于校验后不相符的科目数据采取若干纠错方法纠错,所述纠错方法包括:小数点纠错、结合ocr候选集纠错、结合财报业务公式与未匹配项纠错、基于神经网络纠错、基于蚁群算法的纠错。2.根据权利要求1所述的图像格式财报文档的数据抽取方法,其特征在于,所述科目数据以三元组的形式存储,包括:科目、科目时间、科目金额。3.根据权利要求2所述的图像格式财报文档的数据抽取方法,其特征在于,所述抽取科目数据包括:通过抽取模板中的科目字符串匹配出待抽取文档中识别出的科目,从而获取该科目对应的科目时间和科目金额。4.根据权利要求3所述的图像格式财报文档的数据抽取方法,其特征在于,通过领域词典配置同义词字典,对科目字符串进行部分或者全部的替换。5.根据权利要求1所述的图像格式财报文档的数据抽取方法,其特征在于,所述小数点纠错包括:对上下数据进行预处理;求出所有列的小数占比;根据占比推断数值的小数点。6.根据权利要求1所述的图像格式财报文档的数据抽取方法,其特征在于,所述结合ocr候选集纠...

【专利技术属性】
技术研发人员:江琪高翔纪达麒陈运文
申请(专利权)人:达而观智能深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1