电信业自动化数据挖掘平台制造技术

技术编号:4178499 阅读:296 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及电信业自动化数据挖掘平台,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。与现有技术相比,本发明专利技术建立了一种用于电信行业的自动化数据挖掘平台,使得业务人员和决策支持人员可以借助此平台建立良好的数据挖掘模型。

【技术实现步骤摘要】

本专利技术涉及数据挖掘技术,特别是涉及一种电信业自动化数据挖掘平台
技术介绍
数据挖掘就是通过分析已经存在数据库中的数据解决问题。数据挖掘被定义为 发现数据模式的过程。这个过程必须是自动化的或者(通常)是半自动化的。被挖掘 出来的规则应该意味着某些方面的优势,特别是经济方面的优势。很多技术都可以用于数据挖掘。机器学习、模式识别、人工智能等领域的技术、 方法经过改进,大都可以应用于数据挖掘。常用的方法有决策树、粗糙集、神经网 络、遗传算法、概念树等。数据挖掘平台为集成了数据挖掘整个流程的平台,包括数据源的连接、数据预 处理工具、模型的选取、参数的设置、模型评估以及模型的发布等数据挖掘流程所必须的步骤。目前在数据挖掘方面的优秀平台SAS、 SPSS CLEMENTINE、 KXEN 等数据挖掘平台软件。以上所述的数据挖掘平台是通用的数据挖掘平台,不涉及具体的业务领域,各 行业数据挖掘人员必须掌握通用的数据挖掘工具,要对算法有深入的理解,才能建 立较好的业务模型,这增加了数据挖掘的人力成本和财力成本。另外,数据挖掘工具独立于数据仓库与数据集市之外,例如数据仓库和数据集 市的存储选择ORACLE数据库,而数据挖掘平台选择的是SPSS CLEMENTINE, 两者是两个相对独立的系统。
技术实现思路
本专利技术所要解决的技术问题就是为了克服上述现有技术存在的缺陷而提供一 种电信业自动化数据挖掘平台。本专利技术的目的可以通过以下技术方案来实现电信业自动化数据挖掘平台,其特征在于,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估 模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接 用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模 型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及 评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型, 并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模 块对业务模型进行发布和部署。 所述的数据准备模块包括数据迁移单元,用于将不同数据源的数据装载于统一的数据源; 数据探索单元,用于将数据迁移形成的统一数据源进行数据审核,包括数据指 标的统计;数据准备单元,用于对业务数据进行汇集、排序及编码。 所述的数据指标包括有效值数、缺失值数、最大值、最小值、平均值。 所述的业务模型与数学模型映射模块包括业务模型与数学模型的映射关系,该映射关系为客户获取/客户流失模型对应分类模型和回归模型;客户细分模型对应聚类模型和分类模型;产品关联分析/套餐定制模型对应关联规则模型;业务指标预测对应时间序列模型。所述的自动化建模及评估模块包括数据预处理自动化单元,用于进行包括自动做BIN、自动处理奇异值和缺失值, 以及自动做数据集的均衡的操作;数据分割自动化单元,用于将数据集按照一定的比例分割为估计集、验证集和 测试集,估计集进行业务模型的构建,按照不同算法和算法的不同参数,在估计集 上建立多个模型,多个模型放到验证集上进行验证,得到性能最优模型,对于此最 优模型的性能汇报,以此模型在测试集上的性能指标为准;模型参数选择自动化单元,用于通过"网格搜索"的方式,找到模型的最优参 数设置;模型解释单元,用于将自动屏蔽模型的算法信息,给出模型的业务解释,显示 模型中的重要变量排名、模型的性能衡量,以及变量的相关信息。所述的模型发布和部署模块包括 模型发布单元,用于提供模型接口给业务系统;模型部署单元,用于应用模型输出的不同的语言脚本进行预测,将预测结果发 布到业务系统中。与现有技术相比,本专利技术建立了一种用于电信行业的自动化数据挖掘平台,使 得业务人员和决策支持人员可以借助此平台建立良好的数据挖掘模型。附图说明图1为本专利技术的原理图。 具体实施例方式下面结合附图对本专利技术作进一步说明。如图l所示,电信业自动化数据挖掘平台,包括数据准备模块、业务模型与数 学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备 模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和 数据集巿,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相 应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据, 以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优 的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。所述的数据准备模块包括数据迁移单元,用于将不同数据源的数据装载于统一的数据源; 数据探索单元,用于将数据迁移形成的统一数据源进行数据审核,包括数据指标的统计;数据准备单元,用于对业务数据进行汇集、排序及编码。 所述的数据指标包括有效值数、缺失值数、最大值、最小值、平均值。 所述的业务模型与数学模型映射模块包括业务模型与数学模型的映射关系,该 映射关系为客户获取/客户流失模型对应分类模型和回归模型; 客户细分模型对应聚类模型和分类模型;产品关联分析/套餐定制模型对应关联规则模型;业务指标预测对应时间序列模型。 所述的自动化建模及评估模块包括数据预处理自动化单元,用于进行包括自动做BIN、自动处理奇异值和缺失值, 以及自动做数据集的均衡的操作;数据分割自动化单元,用于将数据集按照一定的比例分割为估计集、验证集和 测试集,估计集进行业务模型的构建,按照不同算法和算法的不同参数,在估计集 上建立多个模型,多个模型放到验证集上进行验证,得到性能最优模型,对于此最优模型的性能汇报,以此模型在测试集上的性能指标为准;模型参数选择自动化单元,用于通过"网格搜索"的方式,找到模型的最优参 数设置;模型解释单元,用于将自动屏蔽模型的算法信息,给出模型的业务解释,显示 模型中的重要变量排名、模型的性能衡量,以及变量的相关信息。 所述的模型发布和部署模块包括-模型发布单元,用于提供模型接口给业务系统;模型部署单元,用于应用模型输出的不同的语言脚本进行预测,将预测结果发 布到业务系统中。数据准备模块,包括数据迁移、数据探索以及数据准备三部分内容,原数据经 过数据准备模块形成可直接用于建模的优质数据,并建成分析型数据集和数据集 市。所述建立业务模型与数学模型的映射关系和自动化建模及评估模块,包括建立 业务模型与数学模型的映射关系、自动化数据建模及评估、模型解释三部分。所述模型的发布和部署模块,包括模型的发布和模型的部署两部分内容。数据迁移是指把不同数据源的数据装载于统一的数据库,在实际的项目当中, 与数据挖掘相关的数据源有时分布在不同的异构的数据库中,我们需要将所需的数 据抽取并装载到统一的数据库中供下一步处理。数据探索是指对经过数据迁移形成的统一数据源做数据审核,包括一系列的数 据指标的统计,如有效值数、缺失值数、最大值、最小值、平均值等统计指标,通 过数据探索可以对数据质量有清楚的认识。 数据准备包括准备分析型数据集、对交易明细数据进行汇总、对交易明细数据 序列化和文本数据编码。建立业务模型与数学模型的映射关系是把商业需求和数学模型同步统一起来, 每种业务给出对应的数学模型来进行自动化建模。自动化数据建模及评估过程将采取自动化方式来实现最优模型选取本文档来自技高网...

【技术保护点】
电信业自动化数据挖掘平台,其特征在于,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯谧
申请(专利权)人:上海全成通信技术有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1