【技术实现步骤摘要】
本专利技术属于数据挖掘分析,具体是指基于olam(on-line analyticalmining,在线分析挖掘)的数据挖掘分析系统。
技术介绍
1、随着大数据时代的到来,企业对数据价值的挖掘需求日益增长,传统的bi(商业智能)工具虽能提供基本的下钻分析功能,但难以满足复杂多变的数据分析需求。同时,数据挖掘领域虽已发展出众多算法与工具,但缺乏一个统一的平台来整合这些资源,实现高效、直观的数据探索与洞察。
2、但现有数据挖掘分析还存在一定的缺陷,现有的数据挖掘分析缺乏有效的增量加载机制,每次都需要全量抽取数据,导致处理负担大,尤其是在频繁更新的数据源上。这不仅浪费资源,还增加了数据处理的时间。此外,现有的olap(online analyticalprocessing,多维分析)只提供基本的多维分析功能,而缺乏更高级的操作以及自定义维度和度量的能力,限制了用户从多个角度深入分析数据的能力,仅支持有限的编程语言和算法库,限制了用户进行自定义数据分析的能力,为此,提出基于olam的数据挖掘分析系统。
技
<本文档来自技高网...【技术保护点】
1.一种基于OLAM的数据挖掘分析系统,其特征在于:包括数据集成预处理模块、多源数据融合模块,OLAM多维分析模块、数据挖掘集成模块、可视化分析平台模块和可视化门户推送模块;
2.根据权利要求1所述的基于OLAM的数据挖掘分析系统,其特征在于:所述数据集成预处理模块包括网上直报、名录库、互联网爬虫,ETL从各个数据源中提取数据,对频繁更新的数据源,设置增量加载机制,只抽取新增或修改的数据,通过唯一标识符来识别并删除重复的数据记录,对获取的数据进行预处理,包括去除重复记录、处理缺失值、纠正错误数据和标准化数据。
3.根据权利要求2所述的基于OLA
...【技术特征摘要】
1.一种基于olam的数据挖掘分析系统,其特征在于:包括数据集成预处理模块、多源数据融合模块,olam多维分析模块、数据挖掘集成模块、可视化分析平台模块和可视化门户推送模块;
2.根据权利要求1所述的基于olam的数据挖掘分析系统,其特征在于:所述数据集成预处理模块包括网上直报、名录库、互联网爬虫,etl从各个数据源中提取数据,对频繁更新的数据源,设置增量加载机制,只抽取新增或修改的数据,通过唯一标识符来识别并删除重复的数据记录,对获取的数据进行预处理,包括去除重复记录、处理缺失值、纠正错误数据和标准化数据。
3.根据权利要求2所述的基于olam的数据挖掘分析系统,其特征在于:所述数据集成预处理模块对预处理后的数据进行转换、汇总和聚合操作,生成新的统计指标,验证不同数据源的一致性并进行数据质量评估,将验证后的数据进行存储,并对大数据集进行分区,查询字段创建索引。
4.根据权利要求1所述的基于olam的数据挖掘分析系统,其特征在于:所述多源数据融合模块将包含时间信息的数据进行对齐,根据时区统一实现公式为:
5.根据权利要求4所述的基于olam的数据挖掘分析系统,其特征在于:所述多源数据融合模块根据处理后的数据进行数据融合,根据选择的合并策略执行数据合并,检查合并后的数据是否存在重复记录和不一致的数据,根据业务需求设定优先级,选择更可信的数据源的数据,设置自动化规则来解决冲突。
6....
【专利技术属性】
技术研发人员:徐玲,杨涛,胡晟旻,陈瞻雄,朱彦霖,
申请(专利权)人:上海市大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。