基于应用目录的业务功能标签目录构建方法、介质及系统技术方案

技术编号:39417772 阅读:11 留言:0更新日期:2023-11-19 16:07
本发明专利技术涉及数据治理技术领域,尤其涉及一种基于应用目录的业务功能标签目录构建方法、计算机可读存储介质及业务功能标签目录构建系统。该基于应用目录的业务功能标签目录构建方法,从调用的应用文件中读取应用目录信息后,通过元素定位方式将应用目录信息解析为维度信息和指标信息,并自表数据库中读取源数据库的表元数据和表内容,然后以预先训练好的应用目录训练模型,对应用目录信息的维度信息和源数据库的表元数据,以及对应的应用目录信息的指标信息和源数据库的表内容进行匹配,能够快速、低人工成本地完成数据目录的构建。低人工成本地完成数据目录的构建。低人工成本地完成数据目录的构建。

【技术实现步骤摘要】
基于应用目录的业务功能标签目录构建方法、介质及系统


[0001]本专利技术涉及数据治理
,尤其涉及一种基于应用目录的业务功能标签目录构建方法、计算机可读存储介质及业务功能标签目录构建系统。

技术介绍

[0002]数据目录是数据的系统性列表,是数据集的分类体现。数据目录作为一种主动数据字典,可以帮助用户快速找到满足自身需求的数据来源,并帮助用户理解、利用数据源来进行数据业务的挖掘分析,同时也帮助企业用户在现有数据源的基础上建立业务洞察、发现业务趋势和确立新业务的切入点,从而发挥企业数据的更多价值。然而,如何快速构建数据目录,使其可提供业务分析,是当下的技术难点。
[0003]目前构建数据目录的主要方式是依赖于人工梳理,由人工手动操作的方式进行数据目录梳理,此类方式既耗费人力,又依赖梳理人员对系统的熟悉度,要求梳理人员具备数据目录的业务认识。例如,某生产系统应用目录五十余个,依赖人员具备业务知识,进行手工梳理,需要一个一个查找确立关系,并在手工梳理好的数据目录上记录存在关联关系的表、表描述等,随着需梳理应用系统的增加,工作量也随着增加,期望采用计算机技术改进现在的工作方法,提升工作效率。因此需要结合现有的相关技术和资源支撑,实现更为有效的数据目录构建方式。
[0004]人工梳理应用目录,建立业务关系的数据目录,虽然可靠,利于熟悉应用目录的相关业务,但是也存在以下缺点:数据的准确性问题:1、获取数据关系需多份数据字典中梳理整合,容易混淆,数据的准确性存在风险;2、依赖业务知识:应用目录梳理工作需要建立在人员具备足够的业务知识,否则不懂业务也难以梳理;3、工作量较大:通过人工梳理的方式,手工一个一个进行数据目录与数据表的关系构建,工作量较大;4、工作效率不高:需通过人工梳理应用目录,然后再从多份字典中查找关系,再建立关系,工作步骤多,造成效率不高;5、人员成本较大:随着应用系统梳理工作的增加,需增加人力,造成人员成本增加。

技术实现思路

[0005]本专利技术所要解决的技术问题是提供一种基于应用目录的业务功能标签目录构建方法以及存储有被执行时实现该方法的计算机程序的计算机可读存储介质,该基于应用目录的业务功能标签目录构建方法能够快速、低人工成本地完成数据目录的构建。
[0006]为了解决上述技术问题,第一方面,本专利技术提供了一种基于应用目录的业务功能标签目录构建方法,包括以下步骤:步骤S1、调用应用文件,读取应用目录信息;步骤S2、通过元素定位方式将应用目录信息解析为维度信息和指标信息;步骤S3、调用源数据库,读取表元数据和表内容;步骤S4、对应用目录信息的维度信息和源数据库的表元数据,以及对应的应用目
录信息的指标信息和源数据库的表内容进行匹配;步骤S5、根据步骤S4的匹配成功结果,建立相匹配的应用目录与源数据库的关联关系。
[0007]进一步地,包括在步骤S5后执行的校验步骤,获取步骤S4中维度信息和表元数据以及指标信息和表内容分别的匹配度:若这两个匹配达到预设程序,则输出匹配结果;若这两个匹配未达到预设程度,则发出人工校验提醒。
[0008]进一步地,所述两个匹配未达到预设程度是指:存在匹配度低于第一阈值,或两个匹配的匹配度均高于第一阈值且低于第二阈值,第二阈值高于第一阈值。
[0009]进一步地,所述步骤S1中,读取应用目录信息是通过执行预设的网络爬虫程序对应用目录进行提取实现的。
[0010]进一步地,所述对应用目录进行提取包括如下步骤:构建python环境,调用类库selenium、playwright;获取应用连接信息,使用第三方类库selenium访问应用系统;调用预设的自动化模拟点击事件,使用第三方类库playwright抓取应用系统的应用目录,以一个应用页面一个文件的方式存储为暂存应用目录;获取暂存应用目录,使用元素定位driver.find_element方式对获取的暂存应用目录进行解析,获取应用页面内容;识别所获取的应用页面内容,调用应用维度库、指标库进行匹配,输出每个页面匹配得到的维度信息、指标信息,建立这两者与应用页面的关联关系。
[0011]进一步地,包括在存储暂存应用目录的过程中执行的跨页表识别步骤:若识别到页面更新,则获取已经抓取的上一应用目录和即将抓取的下一应用目录的应用页面内容,分别进行表格式识别,若识别到在两者中具有相匹配的表格式,则将这两者以一个文件的方式存储为暂存应用目录。
[0012]进一步地,所述页面更新包括跨页跳转更新和当前页面缓存更新。
[0013]进一步地,所述应用连接信息包括应用访问地址、账号、密码当中的一种或多种。
[0014]进一步地,所述识别已获取的应用页面内容是指通过预设的词频

逆向文件频率TF

IDF算法进行内容分词。
[0015]进一步地,所述步骤S4中,对应用目录信息和源数据库进行匹配是通过预先训练的机器学习算法实现的。
[0016]第二方面,还提供了一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器运行时能够实现上述基于应用目录的业务功能标签目录构建方法。
[0017]第三方面,还提供了一种基于应用目录的业务功能标签目录构建系统,包括处理器和处理器分别连接的应用服务器、应用程序执行端和数据表存储库,还包括上述计算机可读存储介质,该计算机可读存储介质上的计算机程序可被处理器执行。
[0018]该基于应用目录的业务功能标签目录构建方法,从调用的应用文件中读取应用目录信息后,通过元素定位方式将应用目录信息解析为维度信息和指标信息,并自源数据库中读取源数据库的表元数据和表内容,然后以预先训练好的应用目录训练模型,对应用目录信息的维度信息和源数据库的表元数据,以及对应的应用目录信息的指标信息和源数据库的表内容进行匹配,不断迭代优化数据目录提取程序,使得应用目录输出不断精准,并且
使用智能匹配技术,利用已输出的应用目录和已存在的关联关系,采用业务功能标签目录构建方法,能够快速、低人工成本地完成数据目录的构建,从而满足用户快速检索数据和理解使用数据的需求。
附图说明
[0019]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
[0020]图1是该基于应用目录的业务功能标签目录构建方法的步骤流程图。
[0021]图2是该基于应用目录的业务功能标签目录构建方法的架构示意图。
具体实施方式
[0022]以下结合具体实施方式对本专利技术创造作进一步详细说明。
[0023]本实施例的基于应用目录的业务功能标签目录构建系统,包括处理器以及与处理器分别连接的应用服务器、应用程序执行端和数据表存储库。见图1,具体的基于应用目录的业务功能标签目录构建方法包括以下步骤实现。
[0024]步骤S1、调用应用文件,读取应用目录信息。
[0025]其中,读取应用目录信息是通过执行预设的网络爬虫程序对应用目录进行提取实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于应用目录的业务功能标签目录构建方法,其特征是,包括以下步骤:步骤S1、调用应用文件,读取应用目录信息;步骤S2、通过元素定位方式将应用目录信息解析为维度信息和指标信息;步骤S3、调用源数据库,读取表元数据和表内容;步骤S4、对应用目录信息的维度信息和源数据库的表元数据,以及对应的应用目录信息的指标信息和源数据库的表内容进行匹配;步骤S5、根据步骤S4的匹配成功结果,建立相匹配的应用目录与源数据库的关联关系。2.如权利要求1所述的基于应用目录的业务功能标签目录构建方法,其特征是,包括在步骤S5后执行的校验步骤,获取步骤S4中维度信息和表元数据以及指标信息和表内容分别的匹配度:若这两个匹配达到预设程序,则输出匹配结果;若这两个匹配未达到预设程度,则发出人工校验提醒。3.如权利要求2所述的基于应用目录的业务功能标签目录构建方法,其特征是,所述两个匹配未达到预设程度是指:存在匹配度低于第一阈值,或两个匹配的匹配度均高于第一阈值且低于第二阈值,第二阈值高于第一阈值。4.如权利要求1所述的基于应用目录的业务功能标签目录构建方法,其特征是,所述步骤S1中,读取应用目录信息是通过执行预设的网络爬虫程序对应用目录进行提取实现的。5.如权利要求4所述的基于应用目录的业务功能标签目录构建方法,其特征是,所述对应用目录进行提取包括如下步骤:构建python环境,调用类库selenium、playwright;获取应用连接信息,使用第三方类库selenium访问应用系统;调用预设的自动化模拟点击事件,使用第三方类库playwright抓取应用系统的应用目录...

【专利技术属性】
技术研发人员:高伟王全胜李劲松庞日海
申请(专利权)人:广州信安数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1