一种知识挖掘系统及方法技术方案

技术编号:26923980 阅读:17 留言:0更新日期:2021-01-01 22:48
本申请公开了一种知识挖掘系统及方法,系统包括:算子仓库用于为资源数据的建模提供算子工具,通过算子工具实现不同的逻辑功能,算子工具包括公共算子和自定义算子;建模平台用于根据算子工具和资源数据进行数据分析模型的构建,并将得到的数据分析模型封装成特定协议;云擎服务模块用于解析各种不同的特定协议,根据解析得到的特定协议内容调用底层大数据组件功能接口,并执行预置数据处理任务,得到目标数据,目标数据为屏蔽访问差异后的同构数据。本申请能够解决现有技术针对海量数据的联合分析缺乏有效的统一处理手段,导致跨领域数据的知识挖掘费时费力且效率低下的技术问题。

【技术实现步骤摘要】
一种知识挖掘系统及方法
本申请涉及数据挖掘
,尤其涉及一种知识挖掘系统及方法。
技术介绍
实际工作中,当我们面对海量数据时,很难将各种大数据框架进行融合。不同来源的数据,存储方式、查询方式都不相同,需要在不同的系统中使用不同的方式将其查询出来,再使用一些跨领域数据的变换才能做进一步的统一数据分析,这些操作一般针对都是有数据库知识及编程知识的人员,对无数据库知识和编程知识的人员则无法操作,除此之外,对大量非结构化数据进行分析,则需要专业人员操作,普通人员更是无法实现分析。目前还没有统一的方法把各种海量异构数据进行融合,在对这些海量数据进行分析时,首先需要许多不同
的专业人员互相配合,耗费人力;其次是没有统一的分析工具,需要从各种数据源把数据抽取出来,进行格式转换和复杂处理后,才能进行需求处理或者分析,效率低下。
技术实现思路
本申请提供了一种知识挖掘系统及方法,用于解决现有技术针对海量数据的联合分析缺乏有效的统一处理手段,导致跨领域数据的知识挖掘费时费力且效率低下的技术问题。有鉴于此,本申请第一方面提供了一种知识挖掘系统,包括:算子仓库、建模平台和云擎服务模块;所述算子仓库用于为资源数据的建模提供算子工具,通过所述算子工具实现不同的逻辑功能,所述算子工具包括公共算子和自定义算子;所述建模平台用于根据所述算子工具和所述资源数据进行数据分析模型的构建,并将得到的所述数据分析模型封装成特定协议;所述云擎服务模块用于解析各种不同的所述特定协议,根据解析得到的特定协议内容调用底层大数据组件功能接口,并执行预置数据处理任务,得到目标数据,所述目标数据为屏蔽访问差异后的同构数据。可选的,所述建模平台具体用于:对所述资源数据进行数据质量验证操作,所述数据质量验证操作包括:缺失验证、错误验证、精度验证、编码验证和元数据验证;对验证后的资源数据进行建模准备相关操作,所述建模准备相关操作包括:源数据选择、数据子集抽取、属性管理、数据排序和数据集划分;对所述算子工具进行组合以及参数设置,并根据所述建模准备相关操作后的资源数据进行数据分析模型的构建;将所述数据分析模型封装为特定协议。可选的,还包括:资源接入模块;所述资源接入模块用于为异构资源提供不同的接口,对所述异构资源进行差异化处理,得到屏蔽差异的所述资源数据。可选的,还包括:数据开发平台;所述数据开发平台用于通过预置脚本、预置程序和调试环境对所述资源数据进行数据查询需求分析,得到新资源数据,通过所述新资源数据触发所述建模平台构建所述数据分析模型。可选的,还包括:运维部署模块;所述运维部署模块用于通过定时调度器定时对所述特定协议进行调度部署管理,并将所述特定协议发送至所述云擎服务模块,为用户提供终止、暂停和重启的服务。可选的,所述运维部署模块还用于:对系统中支持任务调度策略设置一键运行机制,所述支持任务调度策略包括系统脚本和系统Spark程序。可选的,还包括:知识仓库;所述知识仓库用于采用不同的存储形态存储所述特定协议和所述目标数据,所述存储形态包括主题库、标签库和样本库。可选的,还包括:模型评估模块:所述模型评估模块用于对所述数据分析模型进行综合评估,所述综合评估包括逻辑评估、正确及错误率评估、运算节点评估和星级评估。可选的,还包括:模型发布模块;所述模型发布模块用于将所述数据分析模型以预置级别进行发布,所述预置级别包括系统级别和用户级别。本申请第二方面提供了一种知识挖掘方法,包括:将异构资源数据进行差异化处理,得到资源数据;根据所述资源数据和预置算子工具进行数据分析模型的构建,所述预置算子工具包括公共算子和自定义算子;将所述数据分析模型进行封装处理,得到特定协议;根据所述特定协议进行解析后得到的特定协议内容调用底层大数据组件功能接口,并执行预置数据处理任务,得到目标数据,所述目标数据为屏蔽访问差异后的同构数据。从以上技术方案可以看出,本申请实施例具有以下优点:本申请中,提供了一种知识挖掘系统,包括:算子仓库用于为资源数据的建模提供算子工具,通过算子工具实现不同的逻辑功能,算子工具包括公共算子和自定义算子;建模平台用于根据算子工具和资源数据进行数据分析模型的构建,并将得到的数据分析模型封装成特定协议;云擎服务模块用于解析各种不同的特定协议,根据解析得到的特定协议内容调用底层大数据组件功能接口,并执行预置数据处理任务,得到目标数据,目标数据为屏蔽访问差异后的同构数据。本申请提供的一种知识挖掘系统,提供了大量的各不相同的算子工具,这些算子工具不仅能够满足建模中需要的逻辑计算,还可以根据不同的建模需求进行不同的组合,从而实现多种数据的跨领域运算和统一处理,完成多种数据的联合建模任务;通过云擎服务模块对数据分析模型进行解析后,将各种异构数据的查询访问转换为相同的协议请求方式,屏蔽掉数据访问方式的差异,使目标数据便于根据需要进行联合分析。因此,本申请能够解决现有技术针对海量数据的联合分析缺乏有效的统一处理手段,导致跨领域数据的知识挖掘费时费力且效率低下的技术问题。附图说明图1为本申请实施例提供的一种知识挖掘系统的一个结构示意图;图2为本申请实施例提供的一种知识挖掘方法的一个流程示意图;图3为本申请实施例提供的模型定义算子流程图;图4为本申请实施例提供的SQL定义算子流程图;图5为本申请实施例提供的微服务定义算子流程图;图6为本申请实施例提供的统一访问XML接口关系示意图;图7为本申请实施例提供的整体知识挖掘系统结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。术语解释:主题:随着社会上各行业数据的增长和大数据应用的发展,积累了非常多的原始数据,本申请可以对数据按业务进行重构,这种重构可以分为多层进行,不断的对数据进行提炼和分类,最终形成一个数据到知识的金字塔结构,即主题要素库。SQL:结构化查询语言(StructuredQueryLanguage),是一种特殊目的的编程语言,实现数据库查询,用于存取数据以及查询、更新和管理关系数据库系统。XML:扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。HBASE:一种分布式的、面向列的开源数据库,它不同于一般的关系数据库,它适合非结构化数据的存储。HIVE:一种数据仓库工具,用来进行数据提取、转化、加载,用于存储、查询和分析大规模数据的机制。ES:分布式全文本文档来自技高网
...

【技术保护点】
1.一种知识挖掘系统,其特征在于,包括:算子仓库、建模平台和云擎服务模块;/n所述算子仓库用于为资源数据的建模提供算子工具,通过所述算子工具实现不同的逻辑功能,所述算子工具包括公共算子和自定义算子;/n所述建模平台用于根据所述算子工具和所述资源数据进行数据分析模型的构建,并将得到的所述数据分析模型封装成特定协议;/n所述云擎服务模块用于解析各种不同的所述特定协议,根据解析得到的特定协议内容调用底层大数据组件功能接口,并执行预置数据处理任务,得到目标数据,所述目标数据为屏蔽访问差异后的同构数据。/n

【技术特征摘要】
1.一种知识挖掘系统,其特征在于,包括:算子仓库、建模平台和云擎服务模块;
所述算子仓库用于为资源数据的建模提供算子工具,通过所述算子工具实现不同的逻辑功能,所述算子工具包括公共算子和自定义算子;
所述建模平台用于根据所述算子工具和所述资源数据进行数据分析模型的构建,并将得到的所述数据分析模型封装成特定协议;
所述云擎服务模块用于解析各种不同的所述特定协议,根据解析得到的特定协议内容调用底层大数据组件功能接口,并执行预置数据处理任务,得到目标数据,所述目标数据为屏蔽访问差异后的同构数据。


2.根据权利要求1所述的知识挖掘系统,其特征在于,所述建模平台具体用于:
对所述资源数据进行数据质量验证操作,所述数据质量验证操作包括:缺失验证、错误验证、精度验证、编码验证和元数据验证;
对验证后的资源数据进行建模准备相关操作,所述建模准备相关操作包括:源数据选择、数据子集抽取、属性管理、数据排序和数据集划分;
对所述算子工具进行组合以及参数设置,并根据所述建模准备相关操作后的资源数据进行数据分析模型的构建;
将所述数据分析模型封装为特定协议。


3.根据权利要求1所述的知识挖掘系统,其特征在于,还包括:资源接入模块;
所述资源接入模块用于为异构资源提供不同的接口,对所述异构资源进行差异化处理,得到屏蔽差异的所述资源数据。


4.根据权利要求1所述的知识挖掘系统,其特征在于,还包括:数据开发平台;
所述数据开发平台用于通过预置脚本、预置程序和调试环境对所述资源数据进行数据查询需求分析,得到新资源数据,通过所述新资源数据触发所述建模平台构建所述数据分析模型。

...

【专利技术属性】
技术研发人员:郑博洪赖伟陈军李跃华区永豪虎清军周志明张艺李相张森玲萧懿德
申请(专利权)人:广州汇智通信技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1