一种基于大数据的数据价值挖掘方法、装置与系统制造方法及图纸

技术编号:29987577 阅读:55 留言:0更新日期:2021-09-11 04:23
本发明专利技术提出一种基于大数据的数据价值挖掘方法、装置与系统。所述方法包括:接收第一数据,所述第一数据来自于外部的数据源;利用所述第一数据作挖掘,所述挖掘操作作用于第二数据集,所述第二数据集为对第二任务集作采集与加工后的数据集;输出第三数据,所述第三数据的元件来自于所述第二任务集中的至少两个任务。基于所述方法并进一步得到的相应装置及系统,能够基于数据构造并推荐新的解决方案,以此提供数据价值挖掘的自动智能能力,提升企业或组织机构数据价值挖掘的效率。或组织机构数据价值挖掘的效率。

【技术实现步骤摘要】
一种基于大数据的数据价值挖掘方法、装置与系统


[0001]本申请涉及数据处理方法,主要涉及对大数据下企业或组织机构数据的价值挖掘与解决方案推荐的自动智能能力与方法。

技术介绍

[0002]随着计算机与互联网技术的进步,整个社会的数字化趋势越来越明显。但对于传统企业或组织机构来说,这个趋势仅仅给他们提供一些效率工具,他们对数字化还缺少本质认识,更没有认识到数据本身可以作为运营手段甚至赢收目标。
[0003]对于许多以技术驱动的公司来说,BI(商业智能)的确是治理数据与挖掘价值的良好手段。他们会在数据分析师的工作基础之上,根据数据分析结果来增设新的任务甚至解决方案,利用现有数据去运营新的项目。
[0004]上述BI技术的应用与推广是建立在数据分析师完整掌握的基础上,因此需要数据分析师具备丰富的行业经验。不仅如此,针对行业、甚至针对目标企业或组织机构的定制开发也是BI价值落地的必需措施。在这些要求下,一个企业或组织机构使用BI来做新商业方案变现,将会面临很高的时间成本与财务成本。

技术实现思路

[0005]因此,本申请提出解决上述问题、提升与增强企业或组织机构数据价值挖掘、减少数据到新方案商业变现的时间成本与财务成本的方法、系统和装置。这些方法,应用于不特定的工具、设备、系统甚至数据中心或云服务中心,从而构成一个完整对企业或组织机构数据作价值挖掘与方案推荐系统。为此,本专利技术:
[0006]一方面,提出一种数据价值挖掘方法,包括:
[0007]接收第一数据,所述第一数据来自于外部的数据源;利用所述第一数据作挖掘,所述挖掘操作作用于第二数据集,所述第二数据集为对第二任务集作采集与加工后的数据集;输出第三数据,以及所述第三数据的效用值。这样完成对输入数据作价值挖掘与方案推荐的方法与过程。进一步,其中,所述待挖掘的第一数据,为通过ETL加工转换外部的数据源得到的数据;其中,推荐方法的所述挖掘操作所应用的第二数据集包含一个或多个第四数据,所述第四数据与某个第四任务对应,所述第四任务为所述第二任务集的元素;其中,所述第四数据包含用于描述所述第四任务的数据特征;其中,所述第四数据包含用于描述所述第四任务的代码特征;其中,所述第三数据用于描述代码特征,所述代码特征等价于所述某个第五任务,所述第五任务为第二任务集的某个元素;其中,所述第三数据的所述效用值用于反映所述输入数据的预期跟所述第五任务的偏差值,所述偏差值跟所述输入数据的特征与从所述第五任务的采集结果提取的特征的差异。这样,针对一个来自于外部的数据源,在经过工具转换后作为挖掘与推荐系统的输入数据,通过分析并提取输入数据的特征,来匹配已沉淀在挖掘与推荐系统中的、针对系统各任务的采集结果加工形成的特征,基于特征的相似度来识别最接近的已沉淀任务,并根据二者的相似度给出效用评估值,从而完成
数据价值挖掘与方案推荐。
[0008]在一个部署有服务器集群或云数据中心网络的环境中,可选的,产品与服务系统通过服务器集群或云数据中心中的某一台或数台服务器联合完成对输入数据的挖掘,从而输出数据价值挖掘与解决方案推荐的结果。该挖掘与推荐操作有如下过程:接收来自于外部数据源的输入数据,可选的,所述输入数据来自于外部数据源并经过转换工具转换,所述转换工具可以是ETL或其它类似的工具,所述转换过程还可以经过人工干预与选择。所述输入数据经过挖掘操作,所述挖掘操作作用于内部沉淀数据,所述沉淀数据来自于对内部任务集的采集数据集,所述采集数据集作为样本输入并训练得到沉淀数据,所述采集数据集的某个子集跟所述内部任务集的某个元素对应;所述采集数据集的某个子集可以包含所述任务集的某个元素任务的数据特征,所述采集数据集的某个子集还可以包含所述任务集的某个元素任务的代码特征。所述挖掘操作输出任务描述,所述任务描述以数据方式作为输出结果;所述任务描述包含输出结果的效用值,以及下述方式中的一种或多种、与/或一个或多个的组合:可以对应于某个内部任务的编号;可以对应于某个内部任务的名称;可以对应于某个内部任务的一个或多个元件;可以包含前述性质的编号、名称、元件中的一个或多个组成的集合,以及集合内元素间的排序;可以用于反映输出任务的代码元件间的组织方式;可以用于反映输出任务的代码元件与输入数据中的某数据元件的对应关系。这样,针对一个来自于外部的数据源,在经过工具转换后作为挖掘与推荐系统的输入数据,通过分析并提取输入数据的特征,来匹配已沉淀在挖掘与推荐系统中的、针对系统各任务的采集结果加工形成的特征,基于特征的相似度来识别最接近的已沉淀任务,并根据二者的相似度给出效用评估值,从而完成数据价值挖掘与方案推荐。
[0009]这样,实施了包含上述部分或全部方法与步骤的产品与服务系统,能够提供企业或组织机构数据价值挖掘与方案推荐的自动与智能能力,从而为企业或组织机构数据的价值实现以及商业智能提供便捷高效解决方案。
[0010]另一方面,提出一种企业或组织机构数据价值挖掘的推荐装置,该装置包含:任务数据采集接口:该接口用于对任务作数据采集。该采集接口采集并获得关于数据的静态内容与动态内容,静态内容通过对任务的静态代码分析获得,动态内容通过对任务的运行过程采集获得。所采集的静态内容包含数据的数据结构或元数据之数据等方面的内容,所采集的动态内容包含数据在取值范围、幅度等方面的内容等。静态分析可以直接使用类似语言编译器的分析功能或模块,动态采集可以基于软件系统分层下的API接口、或者基于任务底层支撑系统的监控、或者基于TEE与REE来更无感地进行,此处不赘述这些分析与采集方式;任务代码采集接口:该接口用于对任务作代码采集。该采集接口对任务的代码作两方面的采集:静态内容与动态内容。所采集的静态内容包含函数的符号信息、函数的调用关系、函数内的分支语句等方面的内容,所采集的动态内容包含代码运行中的运行栈、分支分布等方面的内容。静态分析可以直接使用类似语言编译器的分析功能或模块,动态采集可以基于软件系统分层下的API接口、或者基于任务底层支撑系统的监控、或者基于TEE与REE来更无感地进行,此处不赘述这些分析与采集方式;映射管理与特征训练功能:该模块接收来自于内部数据采集接口所采集的数据描述数据与来自于内部代码采集接口所采集的代码描述数据,基于任务来管理与维护数据与代码
间的映射关系;基于积累的描述数据集,可选甚至优选的,采用AI技术来分析提取这些数据集的元件,从而得到关于这些数据集的特征;沉淀数据存储功能:该模块用于存储所采集的数据以及对所采集数据分析与加工生成的映射关系、元件及特征等内容;数据输入接口:该接口负责来自于外部的数据源的输入。这些外部数据源到输入数据中间包含这些可能的过程:或者经过手工选择,或者经过ETL工具的转换,可以经过类似ETL工具的转换,或者经过某种方式清洗与标注等等。这些工具可以运行在专利技术所述功能执行体的外部,也可以运行在专利技术功能执行体的内部;挖掘推荐功能:该模块用于针对输入数据作价值挖掘,并确定可匹配的任务或解决方案,从而确定挖掘与推荐结果以及效用值或匹配度;任务输出接口:该接口接本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据价值挖掘方法,其特征在于,包括:接收第一数据,所述第一数据来自于外部的数据源;利用所述第一数据作挖掘,所述挖掘操作作用于第二数据集,所述第二数据集为对第二任务集作采集与加工后的数据集;输出第三数据,所述第三数据的元件来自于所述第二任务集中的至少两个任务。2.根据权利要求1所述方法,其特征在于,所述第一数据集来自于外部的数据源,还包括:所述第一数据为ETL加工转换所述外部的数据源得到。3.根据权利要求1所述方法,其特征在于,还包括:所述第二数据集包含第四数据,所述第四数据来自于对一个第四任务集的采集,所述第四任务集为所述第二任务集的子集,所述第四任务集包含至少两个任务。4.根据权利要求3所述方法,其特征在于,还包括:所述第三数据来自于所述第四数据。5.根据权利要求4所述方法,其特征在于,还包括:所述第四数据包含数据特征,所述数...

【专利技术属性】
技术研发人员:周胜平吴栋林俊杰吴敏梁乔忠仲景武
申请(专利权)人:阿尔法云计算深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1