一种金融长文本复核系统的金融数据一致性审核模块技术方案

技术编号:37137068 阅读:7 留言:0更新日期:2023-04-06 21:37
本发明专利技术提供一种金融长文本复核系统的金融数据一致性审核模块,其包括:文本解析模块,用于获取金融长文本的表格数据;表格解析模块,使用NLP和表格识别技术,识别表格数据并提取关键信息,将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;表格数据读取模块,根据表格数据关系读取表格数据;表格数据处理模块,用于将表格数据划分为财务摘要表、财务主表和财务附注表;表格数据审核模块,根据会计准则提取数据一致性审核规则,按规则进行数据匹配;审核结果输出模块,将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果其包括数据解析模块以及数据审核模块。据审核模块。据审核模块。

【技术实现步骤摘要】
一种金融长文本复核系统的金融数据一致性审核模块


[0001]本专利技术涉及金融文本分析领域,尤其涉及一种金融长文本复核系统的金融数据一致性审核模块。

技术介绍

[0002]金融长文本主要指年度报告、招股说明书、审计报告等财务数据文本,该些文本主要由文本段落、财务指标和表格数据等复杂元素组成,目前,金融机构或企业本身需要对金融长文本进行复核或其他处理挖掘潜在信息,但该些金融长文本主要依靠人工复核,由于数据量之大以及数据之间的关系复杂,造成人工复核的效率以及精准度低,甚至在发布出去的年度报告中存在数据不一致的问题,为了提高金融长文本的复核效率和精准度,基于计算机强大的计算能力,结合人工智能对自然语言处理技术的兴起,现提出一种金融长文本符合系统,以解决金融长文本符合效率低以及精准度低的问题,而金融长文本复核系统需要对前后文的表格数据进行数据一致性审核,为此需要提出一种金融长文本数据一致性审核模块。

技术实现思路

[0003]为了解决现有技术存在的缺点,本专利技术提供一种金融长文本复核系统的金融数据一致性审核模块,其通过解析金融长文本的文本内容,结合人工智能对文本内容的处理,实现金融长文本的高效率以及精准复核。
[0004]本专利技术提供一种金融长文本复核系统,其包括:文本解析模块,用于获取金融长文本的表格数据;表格解析模块,使用NLP和表格识别技术,识别表格数据并提取关键信息,将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;表格数据读取模块,根据表格数据关系读取表格数据;表格数据处理模块,用于将表格数据划分为财务摘要表、财务主表和财务附注表;表格数据审核模块,根据会计准则提取数据一致性审核规则,按规则进行数据匹配;审核结果输出模块,将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果其包括数据解析模块以及数据审核模块。
[0005]优选的,所述金融长文本为PDF格式文本。
[0006]优选的,所述表格数审核模块还包括金融长文本预处理模块,其用于将PDF格式文本按页转换为图片格式文本,根据CV模型预处理后输出表格数据。
[0007]优选的,所述表格数据审核模块通过通用预料和金融预料进行自学习训练获取会计准则。
[0008]优选的,所述表格数据审核模块根据会计准则对上下文出现的同义数据进行匹配。
[0009]优选的,其还包括一批注模块,该批注模块支持表格数据批注,该批注同时显示在与该被批注的表格数据的同义数据处。
[0010]优选的,其根据以下步骤处理金融长文本:S1:输入金融长文本;S2:解析金融长文
本获取表格数据;S3:区分表格数据类型;S4:提取会计准则;S5:根据会计准则进行数据匹配;S6:将得到的信息处理为规定格式;S7:输出审核结果。
[0011]本专利技术提供的金融长文本复核系统,通过解析金融长文本得到表格数据,并定义表格数据关系,以区分表格类型,进而通过自学习获得会计准则,根据会计准则进行数据匹配,省去人工比对,加速数据的审核速度和准确性,提高金融长文本。
附图说明
[0012]图1是本专利技术提供的金融长文本复核系统的数据一致性审核模块的功能逻辑结构图;
[0013]图2是本专利技术提供的金融长文本复核系统的功能逻辑结构图;
[0014]图3是本专利技术提供的版面识别单元获取原始金融长文本对的文档篇章结构信息的具体步骤图;
[0015]图4是本专利技术提供的表格语义分析单元对表格数据分析的具体步骤图;
[0016]图5是本专利技术提供的文本语义解析单元解析段落数据和标题数据的具体步骤图;
[0017]图6是数据一致性审核模块处理表格数据的具体步骤图。
具体实施方式
[0019]下面结合附图对本专利技术所提供的一种金融长文本复核系统作进一步说明,需要指出的是,下面仅以一种最优化的技术方案对本专利技术的技术方案以及设计原理进行详细阐述。
[0020]参阅图1,本专利技术提供的金融长文本复核系统的金融数据一致性审核模块,用于对金融长文本的数据进行全文一致性审核,其包括,文本解析模块,用于获取金融长文本的表格数据;表格解析模块,使用NLP和表格识别技术,识别表格数据并提取关键信息,将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;表格数据读取模块,根据表格数据关系读取表格数据;表格数据处理模块,用于将表格数据划分为财务摘要表、财务主表和财务附注表;表格数据审核模块,根据会计准则提取数据一致性审核规则,按规则进行数据匹配;审核结果输出模块,将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果其包括数据解析模块以及数据审核模块。
[0021]参阅图6,该金融数据一致性审核模块处理表格数据的步骤包括:S1:输入金融长文本;S2:解析金融长文本获取表格数据;S3:区分表格数据类型;S4:提取会计准则;S5:根据会计准则进行数据匹配;S6:将得到的信息处理为规定格式;S7:输出审核结果。
[0022]接下来,结合金融长文本复核系统进行详细说明:
[0023]本专利技术提供的金融长文本复核系统,其用于解析和审核非结构化金融长文本,其包括数据解析模块以及数据审核模块,所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元,所述版面识别单元用于获取原始金融长文本对的文档篇章结构信息,所述表格语义分析单元用于分析版面识别单元获取的表格数据并按预定义的数据模型组织存储数据,所述文本语义解析用于解析版面识别单元获取的段落、标题数据并按预定义的数据模型组织存储数据;所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、数据
一致性审核模块、勾稽关系审核单元以及文本格式审核单元,其中,所述错别字审查单元根据NLP模型检测潜在错别字得到候选字符及概率并结合领域字典针对段落、标题数据查找错别字提出纠正建议,所述一致性审核根据会计准则对表格数据进行审核,所述勾稽关系审核单元根据会计准则提取文本中存在的勾稽关系规则,并由该些勾稽关系规则进行数据审核;所述文本格式审核单元根据标题和文本的目录结构,根据序号连续性和关联序号规则进行格式审核,结合图2,该复核系统通过数据解析模块进行视觉判断,实现表格识别与分析、篇章结构识别以及文本识别与分析并对数据进行结构化处理,基于结构化处理后的数据,由数据审核模块结合对专业知识自学习后的规则引擎和场景配置对文档进行复核输出处理结果。
[0024]其中,在篇章结构识别的过程中,该系统先使用语言模型在大规模通用领域语料以及金融领域语料训练,使模型学到字在上下文中含有丰富语义信息的表征。除此之外还设计了基于规则的特征抽取模块抽取可以表示某行文本位置,相邻文本,对齐方式等特点的特征,最后将语言模型和特征抽取模块抽取的特征拼接后使用fusion层融合并分类,最后将无序的字符串还原出实际的结构;在语义分析过程中,先将原文输入在大规模通用语料和金融语料上训练的预训练模型获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种金融长文本复核系统的金融数据一致性审核模块,其特征在于,其包括:文本解析模块,用于获取金融长文本的表格数据;表格解析模块,使用NLP和表格识别技术,识别表格数据并提取关键信息,将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;表格数据读取模块,根据表格数据关系读取表格数据;表格数据处理模块,用于将表格数据划分为财务摘要表、财务主表和财务附注表;表格数据审核模块,根据会计准则提取数据一致性审核规则,按规则进行数据匹配;审核结果输出模块,将匹配后的数据按预定格式输出并存保存至数据库并输出审核结果其包括数据解析模块以及数据审核模块。2.根据权利要求1所述的一种金融长文本复核系统的金融数据一致性审核模块,其特征在于,所述金融长文本为PDF格式文本。3.根据权利要求2所述的一种金融长文本复核系统的金融数据一致性审核模块,其特征在于,所述表格数审核模块还包括金融长文本预处理模块,其用于将PDF格式文本按页转换为图片格...

【专利技术属性】
技术研发人员:朱乐为马文翔崔子锋
申请(专利权)人:广州故新智能科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1