一种数仓字段业务属性判定和数据分析方法及系统技术方案

技术编号：40309105 阅读：7 留言：0更新日期：2024-02-07 20:52

本发明专利技术公开了一种数仓字段业务属性判定和数据分析方法及系统，方法包括：数据收集，从公共数据运维管理系统抓取数据目录更新周期和归集表名信息；数据处理，对抓取的数据目录数据项进行探查，并进行数据预处理；模型部署，将相关模型部署在离线数据分析平台；API开发，利用后端框架生成数据分析比对、更新及时性透出的接口并设计API的输入输出格式；前端集成与展示，使用库实时向后端API发送请求并获取分析结果并展示分析结果；实现数据更新及时性判别功能。本发明专利技术针对离线数据分析平台数据仓制定数据探查功能，通过对数据仓内表的全部字段探查，动态分析数仓内数据是否及时按照编目的更新频率动态更新，满足数据使用要求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种数仓字段业务属性判定和数据分析方法及系统。

技术介绍

1、目需许多离线数据分析平台数据仓中会归集大批量数据，归集的数据质量参差不齐，归集的数据是否按照编目时候的更新频率定期更新数据是不确定的，如果人为一个个核对，效率较低，这对数据治理工作是一个难点。其次，数据更新不及时影响对数据有需求的业务部门的使用，会影响相关业务的分析。

技术实现思路

1、本专利技术提供一种数仓字段业务属性判定和数据分析方法及系统，以解决现有技术的不足。

2、一种数仓字段业务属性判定和数据分析方法，包括以下步骤：

3、步骤一，数据收集，使用python的requests库模拟网络请求，从公共数据运维管理系统抓取数据目录更新周期和归集表名信息，获取不同目录的更新周期和所有字段信息；

4、步骤二，数据处理，使用python的pandas模块，并对抓取的数据目录数据项进行探查，其中包括数据预处理，使用pandas库处理后将每张表数据项一次循环识别分析；

5、步骤三，模型部署，使用容器化技术docker将相关模型部署在离线数据分析平台，将数据项识别结果和归集的目录更新周期进行匹配分析；

6、步骤四，api开发，利用后端框架生成数据分析比对、更新及时性透出的接口并设计api的输入输出格式；

7、步骤五，前端集成与展示，在公共数据运维管理系统的react前端中引入智能识别功能，使用库实时向后端api发送请求并获取分析结果并展示分析结果；

8、步骤六，实现数据更新及时性判别功能，收集系统在判别业务字段方面的效果和问题，使用收集到的反馈数据对智能识别分析模型进行进一步微调。

9、进一步的，所述数据预处理，具体操作包括：去除空值，删除数据中的空值和无效数据；去重，移除重复的数据目录名称；文本清洗，即移除特殊符号、纠正拼写错误等；数据整理，使用python的pandas库和xlwings库将预处理后的数据整理成结构化数据集。

10、进一步的，所述并对抓取的数据目录数据项进行探查，将探查数据模型部署在所需要的探查环境中，调用模型去识别目录的字段是否为业务字段，并和更新周期进行匹配，看是否一致。

11、进一步的，整理结构化数据集，操作步骤包括，先使用pandas库读取预处理后的数据，将其转换成dataframe格式；而后使用xlwings库将处理后的数据导出到csv格式的文件。

12、进一步的，所述api的输入输出格式，包括数据目录名称查询、业务字段、是否更新及时匹配结果，定义restfulapi路径和json数据格式。

13、进一步的，使用库实时向后端api发送请求并获取分析结果并展示分析结果，还加入判断是否正确辅助功能。

14、本专利技术还提出一种数仓字段业务属性判定和数据分析系统，包括：

15、数据采集模块，用于使用python的requests库模拟网络请求，从公共数据运维管理系统抓取数据目录更新周期和归集表名信息；

16、数据处理模块，用于使用python的pandas模块，并对抓取的数据目录数据项进行探查，其中包括数据预处理，使用pandas库处理后将每张表数据项一次循环识别分析；

17、数据分析模块，用于使用容器化技术docker将相关模型部署在离线数据分析平台，将数据项识别结果和归集的目录更新周期进行匹配分析；

18、数据可视化模块，用于在公共数据运维管理系统的react前端中引入智能识别功能，使用库实时向后端api发送请求并获取分析结果并展示分析结果；

19、数据结果判断模块，用于实现数据更新及时性判别功能，收集系统在判别业务字段方面的效果和问题，使用收集到的反馈数据对智能识别分析模型进行进一步微调。

20、进一步的，所述数据采集模块包括：

21、数据源连通单元，基于数仓中的离线数据同步工具中数据源配置，进行数据源连通性测试，当网络不通时，通过网络白名单设置，使得数据仓有权限访问公共数据运维管理系统数据库，获取从公共数据运维管理系统平台不同目录的更新周期和所有字段信息；

22、数据同步单元，从数据源采集数据，通过定时任务的配置，及时的将数据交换到离线数据分析平台数据仓。

23、进一步的，所述数据处理模块包括：

24、etl单元，用于数据抽取、转换、加载的过程，实现将数据从公共数据运维管理系统平台交换到离线数据分析平台数据仓；

25、数据处理单元，对于不同格式数据，按照离线数据分析平台数据仓规范将数据进行转化，用于将数据标准规范以结构化的方式进行管理；

26、数据清洗单元，用于对标准不一的数据进行清洗转换，使数据按照规范落仓入库。

27、进一步的，所述数据分析模块包括：

28、数据质量配置单元，预先定义好的数据业务字段属性，并按照规则进行配置，用于之后的字段分析；

29、数据质量分析单元，用于按照配置的质量方案进行数据问题查找分析；

30、异常数据处理单元，用于对分析出的问题数据，通过线下对问题数据核实后进行处理，在数仓内对问题数据进行标志处理状态，使数据问题从发现到处理再到回归检查整个过程，形成问题数据闭环处理；

31、数据质量报告单元，用于基于数据质量分析的结果信息，通过报表工具形成质量报告，质量报告按问题分类，展示数据的质量详情，精确到具体的表及字段信息。

32、本专利技术的有益效果是：

33、1)通过机器学历模型，自动定时获取相关目录信息，实时同步更新；2)基于机器学习模型，自动的根据获取的最新目录相关信息，大批量的进行离线数据分析平台数据仓中数据表字段业务属性的判定并分析数据更新及时性；3)结合公共数据运维管理系统的前端和后端技术栈如react和java，设计出易于集成的模型部署和api开发方案，实现与现有运维系统的无缝对接；4)界面展示分析结果，人为可以再次判断分析结果的正确性，进一步优化模型性能，提高机器模型识别的准确性和实用性。

本文档来自技高网...

【技术保护点】

1.一种数仓字段业务属性判定和数据分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数仓字段业务属性判定和数据分析方法，其特征在于，所述数据预处理，具体操作包括：去除空值，删除数据中的空值和无效数据；去重，移除重复的数据目录名称；文本清洗，即移除特殊符号、纠正拼写错误等；数据整理，使用Python的pandas库和xlwings库将预处理后的数据整理成结构化数据集。

3.根据权利要求1所述的一种数仓字段业务属性判定和数据分析方法，其特征在于，所述并对抓取的数据目录数据项进行探查，将探查数据模型部署在所需要的探查环境中，调用模型去识别目录的字段是否为业务字段，并和更新周期进行匹配，看是否一致。

4.根据权利要求2所述的一种数仓字段业务属性判定和数据分析方法，其特征在于，整理结构化数据集，操作步骤包括，先使用pandas库读取预处理后的数据，将其转换成DataFrame格式；而后使用xlwings库将处理后的数据导出到CSV格式的文件。

5.根据权利要求1所述的一种数仓字段业务属性判定和数据分析方法，其特征在于，所述AP

6.根据权利要求1所述的一种数仓字段业务属性判定和数据分析方法，其特征在于，使用库实时向后端API发送请求并获取分析结果并展示分析结果，还加入判断是否正确辅助功能。

7.一种数仓字段业务属性判定和数据分析系统，其特征在于，包括：

8.根据权利要求7所述的一种数仓字段业务属性判定和数据分析系统，其特征在于，所述数据采集模块包括：

9.根据权利要求7所述的一种数仓字段业务属性判定和数据分析系统，其特征在于，所述数据处理模块包括：

10.根据权利要求7所述的一种数仓字段业务属性判定和数据分析系统，其特征在于，所述数据分析模块包括：

...

【技术特征摘要】

1.一种数仓字段业务属性判定和数据分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数仓字段业务属性判定和数据分析方法，其特征在于，所述数据预处理，具体操作包括：去除空值，删除数据中的空值和无效数据；去重，移除重复的数据目录名称；文本清洗，即移除特殊符号、纠正拼写错误等；数据整理，使用python的pandas库和xlwings库将预处理后的数据整理成结构化数据集。

4.根据权利要求2所述的一种数仓字段业务属性判定和数据分析方法，其特征在于，整理结构化数据集，操作步骤包括，先使用pandas库读取预处理后的数据，将其转换成dataframe格式；而后使用xlwing...

【专利技术属性】
技术研发人员：李晓儿，余浩，李卓，魏瑜，卫学彬，余镭，
申请(专利权)人：数字宁波科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人