基于云计算的面向电信业务的数据挖掘应用方法技术

技术编号:8907146 阅读:204 留言:0更新日期:2013-07-11 04:48
本发明专利技术是一种基于云计算的面向电信业务的数据挖掘应用方法,该方法采用分层的思想,自顶向下每层都透明的调用下层接口,最顶层为交互层,用于用户和系统之间的交互,使用分层,各层之间变得独立,易于系统的扩展,该方法的使用有利于我们方便、快速的实现计算机集群。在HADOOP平台上,采用了HDFS(分布式文件系统)来实现超大文件的存储和容错,而使用了MapReduce的编程模式来进行计算。将HADOOP运用到数据挖掘,将一些传统的数据挖掘算法实行并行化。对于传统的数据挖掘算法,结合算法自身的特点,可以很容易或者需要深入研究发现它是否能够并行。

【技术实现步骤摘要】

【技术保护点】
一种基于云计算的面向电信业务的数据挖掘应用方法,其特征在于该方法采用分层的思想,自顶向下每层都透明的调用下层接口,最顶层为交互层,用于用户和系统之间的交互,使用分层,各层之间变得独立,易于系统的扩展,具体如下:1)?分割电信业务的文件:首先,将众多电信业务的文件分成大小不等的若干小块数据,数据块大小由用户给定参数控制,然后启动机器集群中的众多程序拷贝,2)?指派?聚合Map、分流Reduce任务,运用并行的数据挖掘算法进行数据挖掘:在众多程序拷贝中有一个管理机的主程序,其他的均为工作站程序,工作站程序有管理机指派任务,主程序指派空闲的工作站程序执行聚合任务或是?Reduce?任务,3)?读取电信业务的数据:被指派执行聚合任务的工作站读取相关的数据块,从原始数据中解析出数据对,经过聚合函数处理,得到中间键值对时,存入内存缓冲区,4)本地写入电信业务的数据:内存中的数据组被划分函数周期性的划分到?R?个区域写入本地磁盘,这些在本地磁盘的数据数列的存放位置信息被送回管理机,管理机负责将这些位置信息传送到执行分流任务的工作站,5)远程读取处理后的电信业务的数据:当执行分流任务的工作站被告知这些数据的位置,它通过远程方式读取执行聚合任务的工作站中的本地缓冲数据;分流工作站读取完所有中间数据后,通过中间关键字对数据进行分组,把具有相同关键字的数据分为一类;排序操作是必须的,因为具有不同的关键字聚合后会进行相同的分流操作,如果中间数据的数量大到不适合存入内存时,就启用外部存储,6)?写到输出文件,得出电信业务之间的关系:分流工作站对每一个由唯一的中间关键字对应的中间数据进行分组,它发送关键字和相对应的中间值给用户的分流函数,分流函数输出的结果是电信业务之间的关系。...

【技术特征摘要】

【专利技术属性】
技术研发人员:季一木潘俏羽王汝传孙力娟王振洪马晓东韩志杰付雄张琳
申请(专利权)人:南京邮电大学江苏亿通高科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1