基于应用目录的业务功能标签目录构建方法、介质及系统技术方案

技术编号：39417772 阅读：11 留言：0更新日期：2023-11-19 16:07

本发明专利技术涉及数据治理技术领域，尤其涉及一种基于应用目录的业务功能标签目录构建方法、计算机可读存储介质及业务功能标签目录构建系统。该基于应用目录的业务功能标签目录构建方法，从调用的应用文件中读取应用目录信息后，通过元素定位方式将应用目录信息解析为维度信息和指标信息，并自表数据库中读取源数据库的表元数据和表内容，然后以预先训练好的应用目录训练模型，对应用目录信息的维度信息和源数据库的表元数据，以及对应的应用目录信息的指标信息和源数据库的表内容进行匹配，能够快速、低人工成本地完成数据目录的构建。低人工成本地完成数据目录的构建。低人工成本地完成数据目录的构建。

全部详细技术资料下载

【技术实现步骤摘要】
基于应用目录的业务功能标签目录构建方法、介质及系统

[0001]本专利技术涉及数据治理
，尤其涉及一种基于应用目录的业务功能标签目录构建方法、计算机可读存储介质及业务功能标签目录构建系统。

技术介绍

[0002]数据目录是数据的系统性列表，是数据集的分类体现。数据目录作为一种主动数据字典，可以帮助用户快速找到满足自身需求的数据来源，并帮助用户理解、利用数据源来进行数据业务的挖掘分析，同时也帮助企业用户在现有数据源的基础上建立业务洞察、发现业务趋势和确立新业务的切入点，从而发挥企业数据的更多价值。然而，如何快速构建数据目录，使其可提供业务分析，是当下的技术难点。
[0003]目前构建数据目录的主要方式是依赖于人工梳理，由人工手动操作的方式进行数据目录梳理，此类方式既耗费人力，又依赖梳理人员对系统的熟悉度，要求梳理人员具备数据目录的业务认识。例如，某生产系统应用目录五十余个，依赖人员具备业务知识，进行手工梳理，需要一个一个查找确立关系，并在手工梳理好的数据目录上记录存在关联关系的表、表描述等，随着需梳理应用系统的增加，工作量也随着增加，期望采用计算机技术改进现在的工作方法，提升工作效率。因此需要结合现有的相关技术和资源支撑，实现更为有效的数据目录构建方式。
[0004]人工梳理应用目录，建立业务关系的数据目录，虽然可靠，利于熟悉应用目录的相关业务，但是也存在以下缺点：数据的准确性问题：1、获取数据关系需多份数据字典中梳理整合，容易混淆，数据的准确性存在风险；2、依赖业务知识：应用目录梳理工作需要建立...

【技术保护点】

【技术特征摘要】
1.一种基于应用目录的业务功能标签目录构建方法，其特征是，包括以下步骤：步骤S1、调用应用文件，读取应用目录信息；步骤S2、通过元素定位方式将应用目录信息解析为维度信息和指标信息；步骤S3、调用源数据库，读取表元数据和表内容；步骤S4、对应用目录信息的维度信息和源数据库的表元数据，以及对应的应用目录信息的指标信息和源数据库的表内容进行匹配；步骤S5、根据步骤S4的匹配成功结果，建立相匹配的应用目录与源数据库的关联关系。2.如权利要求1所述的基于应用目录的业务功能标签目录构建方法，其特征是，包括在步骤S5后执行的校验步骤，获取步骤S4中维度信息和表元数据以及指标信息和表内容分别的匹配度：若这两个匹配达到预设程序，则输出匹配结果；若这两个匹配未达到预设程度，则发出人工校验提醒。3.如权利要求2所述的基于应用目录的业务功能标签目录构建方法，其特征是，所述两个匹配未达到预设程度是指：存在匹配度低于第一阈值，或两个匹配的匹配度均高于第一阈值且低于第二阈值，第二阈值高于第一阈值。4.如权利要求1所述的基于应用目录的业务功能标签目录构建方法，其特征是，所述步骤S1中，读取应用目录信息是通过执行预设的网络爬虫程序对应用目录进行提取实现的。5.如权利要求4所述的基于应用目录的业务功能标签目录构建方法，其特征是，所述对应用目录进行提取包括如下步骤：构建python环境，调用类库selenium、playwright；获取应用连接信息，使用第三方类库selenium访问应用系统；调用预设的自动化模拟点击事件，使用第三方类库playwright抓取应用系统的应用目录...

【专利技术属性】
技术研发人员：高伟，王全胜，李劲松，庞日海，
申请(专利权)人：广州信安数据有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人