System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种监管数据报送平台数据指标血缘关系智能识别方法技术_技高网

一种监管数据报送平台数据指标血缘关系智能识别方法技术

技术编号:41125842 阅读:3 留言:0更新日期:2024-04-30 17:53
本发明专利技术公开了一种监管数据报送平台数据指标血缘关系智能识别方法,涉及数据处理技术领域。本发明专利技术监管指标数据采集配置的灵活多样性,即可以采集指标脚本数据,亦可采集相关数据库元数据和相关文档;采集数据通过数据验证与校验,以及归一化和标准化处理,可形成计算监管指标溯源的基础数据;增强了与监管指标计算密切相关的脚本语料库数据和元数据的处理,丰富了数据采集维度,扩大了指标数据血缘分析的特征变量及相互关系,使得数据血缘分析的更加准确与全面;通过可量化的监管数据指标的计算脚本、元数据及文档等,利用GPT实体与关系计算模型和指标脚本相似度计算模型,可智能化、自动化地解决系统中各项监管数据指标的准确性、合规性、时效性等问题。

【技术实现步骤摘要】

本专利技术属于数据处理,特别是涉及一种监管数据报送平台数据指标血缘关系智能识别方法


技术介绍

1、监管数据报送主要是应用在金融行业中,同时也是国家金融监督管理总局为了更好的管理金融企业,要求从业机构定期合规合法地上报从业数据;因此,为了规范合法及有效地上报数据,监管数据报送系统成为每家金融企业必备的数字化报送平台。银行监管报送数据包括但不限于:(1)信贷业务数据:包括贷款、授信、担保、押品等信贷业务数据,以及与信贷业务相关的客户信息及交易信息;(2)财务会计数据:包括财务报表、财务指标、资产质量、成本效益等数据,以及与财务管理相关的信息和指标;(3)风险管理数据:包括风险识别、评估、监控以及缓释等数据,与风险管理相关的信息和指标;(4)内部控制数据:包括内部控制环境、风险评估、控制活动、信息沟通等数据,以及与内容控制相关的信息和指标;(5)合规管理数据:包括合规风险识别、评估、监控、应对等数据,以及与合规管理相关的信息和指标;(6)反洗钱数据:包括客户信息、交易信息、资金来源和使用情况等数据,以及反洗钱相关的信息和指标;(7)案件防控数据:包括案件风险排查、处置、整改等数据,以及与案件防控相关的信息和指标;(8)监管统计数据:包括各类监管报表、指标等信息,用于反映银行整体及各分支机构的业务情况和监管情况。

2、现有的监管数据报送平台主要围绕以下功能来实现;数据采集:平台自动从业务系统中或其它相关系统中抽取、转换和加载数据;数据处理:包括对数据的清洗、去重、拆分、合并等;以确保数据的准确性和完整性;数据存储:将处理后的数据存储于数据库或其它存储设备中,以备后续使用;数据核对:对采集的数据进行核对和校验,以确保数据的准确性和合规性;数据传输:将处理后的数据安全、准确地传输至监管机构或其它相关机构;数据报送:根据监管机构或其它相关机构的要求,将数据以包括报表、报告等多种形式进行报送;数据安全:该系统对数据进行加密、备份等操作,以确保数据的安全性和完整性;并且在以上核心功能的基础上,实现了对整体业务监管指标数据的报送管理;但是,随着平台的深入开发及应用,暴露出来一个非常的突出问题便是监管要求随着业务市场的变化而变化,数据指标的一致性、准确性、有效性乃至时效性存在不足。目前的做法是,需要人工被动地抽查数据指标是否定义一致、准确或合规,或在数据集中上报之前,耗费大量人力物力对监管数据进行核查比对;在一定程度上,不仅存在数据上报的一致性和准确性问题,同时也存在一定时效的问题。

3、现有的监管数据报送系统存在如下问题:(1)缺乏整体的监管数据管控体系:导致无法对数据进行统筹规划和管理,增加了数据管控的难度;(2)缺乏统一的指标和口径:导致数据口径不一致,容易造成数据统计的误差;与此同时,没有一个有效的途径对数据指标血缘关系进行溯源,监管报送指标因口径不一致存在重复性计算和报送的现象;(3)缺乏数据血缘关系的展现:导致数据治理难度增加,无法确定数据的来源和归属,无法对数据进行有效的管理和治理,进而数据质量也难以保证;综上几个问题的存在,往往是导致数据一致性和准确性问题,因而引发报送时效性不强,数据无法及时报送,影响监管机构对企业的及时监控;同时随着平台的深入开发和应用,暴露出来一个非常突出的问题,那就是监管数据随着业务市场的变化而变化,数据指标的一致性、准确性、有效性以及时效性存在一些问题。目前的做法是,需要人工被动地抽查数据指标是否定义一致、准确与合规,或在数据集中上报之前,耗费大量人力物力对监管数据进行核查比对。在一定程度上,不仅存在数据上报的一致性和准确性问题,同时也存在一定时效性的问题。总体而言,为适应监管的改革与发展,企业确保监管数据上报的一致性和准确性的刚需需求,现有的监管数据报送系统存在数据血缘性溯源的一定缺陷,如果需要梳理监管数据的血缘溯源,需要耗费大量的人力,难以通过现有系统智能化地分析并展现监控指标数据的血缘性。


技术实现思路

1、本专利技术提供了一种监管数据报送平台数据指标血缘关系智能识别方法,解决了智能化地对监管报送数据血缘关系智能化识别,从而提升整体报送数据的一致性、准确性、合规性及时效性;由此,解决了
技术介绍
中的问题。

2、为解决上述技术问题,本专利技术是通过以下技术方案实现的:

3、本专利技术的一种监管数据报送平台数据指标血缘关系智能识别方法,包括如下步骤:

4、s1、配置监管数据指标sql脚本和相关元数据来源;

5、s2、定期或实时对脚本或数据进行采集;实时数据采集主要包括对时间敏感型业务脚本与数据,每小时或每天的采集周期内相关发生变更的业务脚本及数据;采用定期或实时的脚本和数据采集,结合具体业务场景,根据脚本及数据特征进行设置;

6、s3、采集的脚本和数据校验与清洗:采集的脚本和数据难免与预定义的脚本或数据格式发生偏差;本步骤用于校验脚本或数据的完整性及一致性,确保数据或脚本具备真实业务含义及解释;

7、s4、采集的脚本及元数据按照语料库构建的数据定义格式,封装成数据集;

8、s5、针对数据集,依次遍历生成机器学习能够识别的脚本和数据表达,即文本数据向量;

9、s6、生成完毕的文本数据向量存入向量数据库以作为检索资料或可处理向量化语料信息;

10、s7、通过gpt文本关系识别模块,利用监管指标及脚本提取模块将向量数据库中的语料知识提取出来,并识别实体以及实体之间的关系,该步骤具体由定制化生成式预训练模型实现;

11、s8、识别出的实体与实体之间的关系存放入图数据,利用图数据库的功能,便能够将监管指标信息中的实体关系绘制出来;

12、s9、当需要检索某监管指标时,通过指标脚本相似模型算法,从库中获取与该指标最相似的指标;并通过将相似指标的数据血缘关系展现并报告呈现。

13、进一步地,所述识别方法通过如下系统实现,该系统包括:

14、监管数据采集配置模块:针对监管数据指标脚本和元数据的来源、数据的采集周期及数据采集的字段实现个性化配置;

15、监管数据定时或实时采集模块:根据数据采集的配置定义,定期或实时地完成对数据库表数据及元数据、数据提取sql脚本、监管指标计算脚本源代码、文件数据、消息队列数据、api接口数据的采集;

16、监管数据预处理模与校验模块:用于完成对采集数据的规范校验及预处理,以保证数据质量和准确性;

17、指标脚本元数据集成生成模块:基于采集后的相关数据,利用gpt强大的文本与关系识别能力,将数据之间的结构化关系,自动化、规则化地生成指标、脚本及元数据之间的图数据集,该图数据集为建立专属化的数据血缘关系的可视化溯源服务;

18、向量数据生成模块:将生成的指标脚本元数据集的数据向量化及计算机系统的数字表达,便于监管指标数据查询溯源的相似性计算;

19、向量数据存储与入库模块:将上述数据集在向量化计算的基础上,以向量化的数据格式存入向量数据库;

2本文档来自技高网...

【技术保护点】

1.一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述识别方法通过如下系统实现,该系统包括:

3.根据权利要求1所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述定制化生成式预训练模型包括命名实体识别和实体关系提取两大功能;

4.根据权利要求1所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述定制化生成式预训练模型通过如下步骤进行训练:

5.根据权利要求2所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述系统还包括数据采集及服务系统,所述数据采集及服务系统包括:

6.根据权利要求2所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述监管数据采集配置模块、监管数据定时或实时采集模块、监管数据预处理模与校验模块是基于Java、Kafka、Flink及Oceanbase分布式数据库读写组件实现,并完成了所有构建监管指标、脚本、元数据的采集、预处理及持久化;采集及预处理完毕后的数据存储于Oceanbase分布式数据库。

7.根据权利要求2所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述向量数据生成模块是依赖于Python Dask库实现,通过Dask可多主机、多线程地执行数据集的向量计算任务,向量算法是采用的预训练模型:text-embedding-ada-002,该计算任务的执行是由人工触发或定时调度来实现。

8.根据权利要求2所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述GPT实体及关系识别模块、监管指标脚本相似度计算模块是在向量计算的基础上,采用Java和Python语言,实现对监管指标智能化自动化血缘关系识别与匹配的应用模块,向量数据生成模块和监管指标脚本相似度计算模块的输出结果按照场景需求分别写入Mysql数据库、Redis缓存及向量数据库,并通过图计算解析与报告模块可视化地显示监管指标的血缘关系。

...

【技术特征摘要】

1.一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述识别方法通过如下系统实现,该系统包括:

3.根据权利要求1所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述定制化生成式预训练模型包括命名实体识别和实体关系提取两大功能;

4.根据权利要求1所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述定制化生成式预训练模型通过如下步骤进行训练:

5.根据权利要求2所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述系统还包括数据采集及服务系统,所述数据采集及服务系统包括:

6.根据权利要求2所述的一种监管数据报送平台数据指标血缘关系智能识别方法,其特征在于,所述监管数据采集配置模块、监管数据定时或实时采集模块、监管数据预处理模与校验模块是基于java、kafka、flink及oceanba...

【专利技术属性】
技术研发人员:赵曼李西龙李维军
申请(专利权)人:海穗信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1