一种基于数据湖的AI融合治理方法技术

技术编号:36910606 阅读:10 留言:0更新日期:2023-03-18 09:29
本发明专利技术公开了一种基于数据湖的AI融合治理方法,该方法的步骤为:S1:将数据湖数据接入,通过将数据湖接入的数据通过AI技术自动进行图像识别、文字识别、语音识别,从而AI数据采集到各种结构化数据和非结构化数据。本申请通过在整合数据中的元数据通过语义模型、分类聚类算法、标签体系的自动化数据目录进行元数据采集,然后进行数据补充和二次筛选并转化,通过知识图谱、图数据库技术,设计生成出符合企业业务的新的结构化模型,新的结构化模型通过模型训练和模型评估,评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选,从而实现自适应学习生产的结构化模型。型。型。

【技术实现步骤摘要】
一种基于数据湖的AI融合治理方法


[0001]本专利技术属于数据治理
,具体为一种基于数据湖的AI融合治理方法。

技术介绍

[0002]在过去,数据治理需要专业的技术和管理人员操作,对实际应用有较高门槛要求,当前,人工智能与数据治理的完美融合开启了智能数据治理的新阶段,通过AI赋能,可以不断提升数据治理工具的可操作性,使得治理数据的参与者可以更为便捷地使用数据治理工具。
[0003]现有技术中,数据湖是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具,由于数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据可能有很多满足特定内部模型格式的数据结构,因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到非结构化数据,这些数据并非完全都适用于企业的结构化数据模型,从而导致筛选的数据很大程度的受限于企业的结构化数据模型和输入的企业业务数据,针对上述情况,设计一种基于数据湖的AI融合治理方法。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种基于数据湖的AI融合治理方法,具有自适应学习生产的结构化模型的优点。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于数据湖的AI融合治理方法,该方法的步骤为:S1:将数据湖数据接入,通过将数据湖接入的数据通过AI技术自动进行图像识别、文字识别、语音识别,从而AI数据采集到各种结构化数据和非结构化数据;S2:将采集到的结构化数据和非结构化数据与企业的结构化数据模型进行对比,筛选出符合企业的结构化的数据;S3:不符合企业的结构化的数据进行数据整合,并在整合数据内进行元数据采集,然后进行数据补充和二次筛选并转化,通过知识图谱、图数据库技术,设计生成出符合企业业务的新的结构化模型;S4:对新的结构化模型进行模型训练和模型评估:评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选;评估标准达不到企业要求后,将新的结构化模型和原始数据进行丢弃;S5:在S2中筛选出符合企业的结构化的数据经过ETL处理得出的主数据和提取的元数据和企业业务化元数据,经过监督学习、深度学习、回归模型、知识图谱这些AI技术与数据质量管理的深度融合,实现对数据清洗和数据质量的评估,最后将评估的数据入到数据资源地。
[0006]S6:通过AI学习算法自动识别出数据标准的使用频度、热度并且通过企业业务输
入数据,作为数据质量评估的标准,参与到S5中的数据质量评估,提高对数据标准评估的水平和优化数据的能力。
[0007]优选的,所述数据湖包括有结构化数据和非结构化数据,所述AI数据采集包括有结构化数据采集和非结构化数据采集。
[0008]优选的,所述数据整合包括有非结构化数据整合和结构化数据整合,非结构化数据整合和结构化数据整合方法包括有语义模型、分类聚类算法、标签体系的自动化数据目录。
[0009]优选的,所述新的结构化模型转化生成的技术方法包括有知识图谱和图数据库技术。
[0010]优选的,所述新的结构化模型学习流程包括有模型训练和模型评估。
[0011]优选的,所述数据质量评估包括有主数据、提取的元数据和企业业务化元数据质量评估。
[0012]优选的,所述数据质量评估的标准包括有数据标准的使用频度、热度和企业业务输入数据。
[0013]与现有技术相比,本专利技术的有益效果如下:本申请通过数据湖、数据整合等,达到自适应学习生产的结构化模型的目的,将数据湖接入的数据通过AI技术自动进行图像识别、文字识别、语音识别, AI数据采集到各种结构化数据和非结构化数据与企业的结构化数据模型进行对比,筛选出符合企业的结构化的数据,不符合企业的结构化的数据进行数据整合,并在整合数据中的元数据通过语义模型、分类聚类算法、标签体系的自动化数据目录进行元数据采集,然后进行数据补充和二次筛选并转化,通过知识图谱、图数据库技术,设计生成出符合企业业务的新的结构化模型,新的结构化模型通过模型训练和模型评估,评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选,评估标准达不到企业要求后,将新的结构化模型和原始数据进行丢弃,综合上述,从而实现自适应学习生产的结构化模型。
附图说明
[0014]图1为本专利技术的数据治理流程示意图。
具体实施方式
[0015]基于本专利技术中的实施例及附图,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]如图1所示,本专利技术提供一种技术方案:一种基于数据湖的AI融合治理方法与流程,该方法的步骤为:S1:将数据湖数据接入,通过将数据湖接入的数据通过AI技术自动进行图像识别、文字识别、语音识别,从而AI数据采集到各种结构化数据和非结构化数据;S2:将采集到的结构化数据和非结构化数据与企业的结构化数据模型进行对比,筛选出符合企业的结构化的数据;S3:不符合企业的结构化的数据进行数据整合,并在整合数据内进行元数据采集,
然后进行数据补充和二次筛选并转化,通过知识图谱、图数据库技术,设计生成出符合企业业务的新的结构化模型;S4:对新的结构化模型进行模型训练和模型评估:评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选;评估标准达不到企业要求后,将新的结构化模型和原始数据进行丢弃;S5:在S2中筛选出符合企业的结构化的数据经过ETL处理得出的主数据和提取的元数据和企业业务化元数据,经过监督学习、深度学习、回归模型、知识图谱这些AI技术与数据质量管理的深度融合,实现对数据清洗和数据质量的评估,最后将评估的数据入到数据资源地。
[0017]S6:通过AI学习算法自动识别出数据标准的使用频度、热度并且通过企业业务输入数据,作为数据质量评估的标准,参与到S5中的数据质量评估,提高对数据标准评估的水平和优化数据的能力。
[0018]其中,所述数据湖包括有结构化数据和非结构化数据,所述AI数据采集包括有结构化数据采集和非结构化数据采集;由于数据湖内的数据的多样性,通过AI技术识别企业业务所需关键数据,再从数据湖内进行结构化数据采集和非结构化数据采集,确保AI数据采集的多样性和有效性。
[0019]其中,所述数据整合包括有非结构化数据整合和结构化数据整合,非结构化数据整合和结构化数据整合方法包括有语义模型、分类聚类算法、标签体系的自动化数据目录;AI数据采集到的非结构化数据整合和结构化数据与企业的结构化数据模型进行对比后,筛选出不符合的非结构化数据整合和结构化数据,对不符合的非结构化数据整合和结构化数据进行数据整合,整合过程中,主要对非结构化数据和结构化数据中的元数据通过语义模型、分类聚类算法、标签体系的自动化数据目录进行整合。
[0020]其中,所述新的结构化模型转化生成的技术方法包括有知识图谱和图数据库本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的AI融合治理方法,其特征在于:该方法的步骤为:S1:将数据湖数据接入,通过将数据湖接入的数据通过AI技术自动进行图像识别、文字识别、语音识别,从而AI数据采集到各种结构化数据和非结构化数据;S2:将采集到的结构化数据和非结构化数据与企业的结构化数据模型进行对比,筛选出符合企业的结构化的数据;S3:不符合企业的结构化的数据进行数据整合,并在整合数据内进行元数据采集,然后进行数据补充和二次筛选并转化,通过知识图谱、图数据库技术,设计生成出符合企业业务的新的结构化模型;S4:对新的结构化模型进行模型训练和模型评估:评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选;评估标准达不到企业要求后,将新的结构化模型和原始数据进行丢弃;S5:在S2中筛选出符合企业的结构化的数据经过ETL处理得出的主数据和提取的元数据和企业业务化元数据,经过监督学习、深度学习、回归模型、知识图谱这些AI技术与数据质量管理的深度融合,实现对数据清洗和数据质量的评估,最后将评估的数据入到数据资源地;S6:通过AI学习算法自动识别出数据标准的使用频度、热度并且通过企业业务输入数...

【专利技术属性】
技术研发人员:李保平谢超杨建荣陈木辉麦新伟戴思敏欧再辉
申请(专利权)人:广州汇通国信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1