一种智能化的可定制的数据治理和分析方法技术

技术编号:23099245 阅读:30 留言:0更新日期:2020-01-14 20:37
本发明专利技术具体地涉及到一种智能化的可定制的数据治理和分析方法,包括以下步骤:步骤1:构建全局主数据。步骤2:对应用系统内的非结构化数据进行结构化处理。步骤3:将应用系统内多个不同来源的数据,基于主数据进行融合,得到标准数据。步骤4:在标准数据中定制字段,作为数据的类型和标签。步骤5:定制分析条件、分析范围和图表格式。本发明专利技术提供的方法能够智能化地对应用系统数据进行治理,包括将非结构化的应用系统数据进行结构化,以及针对多源异构的数据进行数据对齐和缺失数据补齐。同时,本发明专利技术的方法支持用户定制分析的条件,定义分析的范围,定制数据的展现形式,做到灵活的可制定的数据分析。

【技术实现步骤摘要】
一种智能化的可定制的数据治理和分析方法
本专利技术涉及信息抽取和文本分析领域,,具体地涉及到一种智能化的可定制的数据治理和分析方法。
技术介绍
主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;它是具有高业务价值的,可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。主数据在定义方面,没有统一的标准、没有明确的定义和范围;在流程方面,数据创建、维护等管理流程不一致;对于质量问题,数据缺乏完整性、一致性、准确性,重复数据多,也导致主数据管理难;而不知以谁为“主”、共享途径不畅及访问控制困难等问题也让主数据共享产生困难。多源异构的数据当中,由于存在别名、简称、翻译、自然表述和书面语的不同,同一个概念可能有不同的名称,需要进行数据的对齐。另外还存在数据的缺失问题,需要进行填充。另外,应用系统中存在着大量的非结构化数据,例如病例、判决书和文献等,不能直接进行数据分析。这些都需要有智能化的数据治理方法来解决。另外,目前大多数的分析工具都是对于给定的数据,给出固定的结果,难以做到灵活的可制定的数据分析。比如不支持用户定制分析的条件,定义分析的范围,定制数据的展现形式。
技术实现思路
1、所要解决的技术问题:针对上述存在的问题,本专利技术提出了一种智能化的可定制的数据治理和分析方法。本专利技术首先构建全局主数据,针对非结构化的数据基于信息抽取使其结构化,然后基于全局主数据,完成数据治理,得到标准的数据;用户可以在标准数据中定制字段,以进行分类或者标注;最后,根据用户定义的分析条件、分析范围和展现方式,进行展示。2、技术方案:一种智能化的可定制的数据治理和分析方法,其特征在于:包括以下步骤:步骤1:构建全局主数据。步骤2:对应用系统内的非结构化数据进行结构化处理。步骤3:将应用系统内多个不同来源的数据,基于主数据进行融合,得到标准数据。步骤4:在标准数据中定制字段,作为数据的类型和标签。步骤5:定制分析条件、分析范围和图表格式。步骤6:根据步骤5的定制条件,生成数据分析结果。进一步地,所述步骤1中的建立全局主数据的具体过程为:采用应用系统的数据库以及相关领域的网站数据作为主数据的主要数据源;设计一系列转换规则,从应用系统数据库以及相关领域的网站数据中得到主数据;所述转换规则包括但不限于:将关系模式中的表名转换为主数据中的概念名、表与表间的关系转换为主数据中的概念与概念的关系、将关系模式中的字段名转换为主数据的属性名;获得主数据的方法还包括人工定义的方式。进一步地,步骤2中对应用系统内的非结构化数据进行结构化处理的方法为采用信息抽取的方法;其中抽取的信息为主数据但不限于主数据。进一步地,所述步骤3将多个不同来源的数据,基于主数据进行融合的方法包括数据对齐和缺失数据补全。所述数据对齐为对多个异构的数据源的主数据进行知识融合;对存在着一些相同或相似的概念和属性,采用相似性检验规则对这些不同领域内的主数据进行检测;所述相似性检验规则包括语义相似性检测、概念相似性检测、属性相似性检测、数据格式相似性检测;通过相似性检验后,能将的多个异构的数据源中的相同和相似主数据进行统一。所述缺失数据补全分为外部缺失数据和内部缺失数据;对于外部缺失数据,通过网页爬虫技术获取外部网站的数据;对于内部缺失数据,利用关联规则挖掘方法进行补全;通过关联规则挖掘能够找出隐藏在数据集中各个属性之间的内在规则关系,利用这种规则能够用已有的条件属性值推出未知的属性值,达到对数据集进行填补的效果。经过数据对齐和缺失数据补全的数据成为标准数据,可以在此基础上进行统计和分析。进一步地,所述步骤4中在标准数据中定制字段,作为数据的类型和标签的方法为:在用户定制了新的字段后,产生数据类别和标签的产生的方法为基于规则的方法或者基于机器学习的方法。进一步地,所述步骤5中定制分析条件、分析范围和报表格式具体包括:定制分析的条件:指定从哪些字段或属性进行抽取。定制分析的范围:对于指定的字段,可以设置取值范围,只有在取值范围内的数据才被抽取。定制数据的展现形式,所述展现形式包括列表、饼图、趋势图、柱状图以及关系图。进一步地,其中步骤6生成数据分析结果的方法如下:根据用户定制的报表格式,自动生成对应的SQL语句,对数据库进行查询,并生成查询结果的对应形式例如趋势图,展示给用户。3、有益效果:本专利技术提供的方法能够智能化地对应用系统数据进行治理,包括将非结构化的应用系统数据进行结构化,以及针对多源异构的数据进行数据对齐和缺失数据补齐。同时,本专利技术的方法支持用户定制分析的条件,定义分析的范围,定制数据的展现形式,做到灵活的可制定的数据分析。附图说明图1为一种智能化的可定制的数据治理和分析方法流程图。具体实施方式下面结合附图对本专利技术进行进一步的说明。如附图1所示一种智能化的可定制的数据治理和分析方法,其特征在于:包括以下步骤:步骤1:构建全局主数据。步骤2:对应用系统内的非结构化数据进行结构化处理。步骤3:将应用系统内多个不同来源的数据,基于主数据进行融合,得到标准数据。步骤4:在标准数据中定制字段,作为数据的类型和标签。步骤5:定制分析条件、分析范围和图表格式。步骤6:根据步骤5的定制条件,生成数据分析结果。所述步骤1中的建立全局主数据的具体过程为:采用应用系统的数据库以及相关领域的网站数据作为主数据的主要数据源;设计一系列转换规则,从应用系统数据库以及相关领域的网站数据中得到主数据;所述转换规则包括但不限于:将关系模式中的表名转换为主数据中的概念名、表与表间的关系转换为主数据中的概念与概念的关系、将关系模式中的字段名转换为主数据的属性名。例如住院信息系统当中,数据库表当中包括病人记录、床位记录和病人体征记录等。根据病人记录建立病人主数据,其中的字段作为属性名,包括病人标识号、病人姓名、床号、入院日期、主要诊断、病情状态等;病人和体征记录之间具有“表现”的关系,即“病人表现出体征”,将其转化作为概念间的关系。关系数据库可具有完整的数据模式,包含完整的表结构和完整性约束条件。因此可以将数据库中的关系名转换为主数据中的概念,部分字段名转换为主数据中的属性。也可以采用人工定义的方式得到主数据。步骤2中对应用系统内的非结构化数据进行结构化处理的方法为采用信息抽取的方法;其中抽取的信息为主数据但不限于主数据。对于非结构化的业务数据,例如病例、文献和裁判文书等,采用信息抽取的方法将其转换为结构化的数据。其中抽取的信息,可以是但不限于主数据。例如病例当中包含“病人”、“症状”、“化验结果”、“治疗方法”和药品等主数据,从病例当中抽出这些主数据的值,转化成结构化数据。所述步骤3将多个不同来源的数据,基于主数据进行融合的方法包括数据对齐和缺失本文档来自技高网...

【技术保护点】
1.一种智能化的可定制的数据治理和分析方法,其特征在于:包括以下步骤:/n步骤1:构建全局主数据;/n步骤2:对应用系统内的非结构化数据进行结构化处理;/n步骤3:将应用系统内多个不同来源的数据,基于主数据进行融合,得到标准数据;/n步骤4:在标准数据中定制字段,作为数据的类型和标签;/n步骤5:定制分析条件、分析范围和图表格式;/n步骤6:根据步骤5的定制条件,生成数据分析结果。/n

【技术特征摘要】
1.一种智能化的可定制的数据治理和分析方法,其特征在于:包括以下步骤:
步骤1:构建全局主数据;
步骤2:对应用系统内的非结构化数据进行结构化处理;
步骤3:将应用系统内多个不同来源的数据,基于主数据进行融合,得到标准数据;
步骤4:在标准数据中定制字段,作为数据的类型和标签;
步骤5:定制分析条件、分析范围和图表格式;
步骤6:根据步骤5的定制条件,生成数据分析结果。


2.根据权利要求1所述的一种智能化的可定制的数据治理和分析方法,其特征在于:所述步骤1中的建立全局主数据的具体过程为:采用应用系统的数据库以及相关领域的网站数据作为主数据的主要数据源;设计一系列转换规则,从应用系统数据库以及相关领域的网站数据中得到主数据;所述转换规则包括但不限于:将关系模式中的表名转换为主数据中的概念名、表与表间的关系转换为主数据中的概念与概念的关系、将关系模式中的字段名转换为主数据的属性名;获得主数据的方法还包括人工定义的方式。


3.根据权利要求1所述的一种智能化的可定制的数据治理和分析方法,其特征在于:步骤2中对应用系统内的非结构化数据进行结构化处理的方法为采用信息抽取的方法;其中抽取的信息为主数据但不限于主数据。


4.根据权利要求1所述的一种智能化的可定制的数据治理和分析方法,其特征在于:所述步骤3将多个不同来源的数据,基于主数据进行融合的方法包括数据对齐和缺失数据补全;
所述数据对齐为对多个异构的数据源的主数据进行知识融合;对存在着一些相同或相似的概念和属性,采用相似性检验规则对这些不同领域内的主数据进行检测;所述相似...

【专利技术属性】
技术研发人员:孟涛李佳静
申请(专利权)人:南京网感至察信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1