【技术实现步骤摘要】
本专利技术涉及互联网数据挖掘
,尤其涉及一种互联网实时计算的方法和系统。
技术介绍
随着facebook、twitter、微博、博客等web2. O新型媒体的发展,对消息的实时性要求越来越高,与此同时,对信息内容的分析也越来越重要,越来越实时。为了满足互联网的实时性热点分析、活跃用户分析、舆情监控、垃圾信息处理、非法信息过滤等需求,作为实时信息内容的产生方以及第三方,均对实时数据挖掘分析展开了大量的研究和系统设计。现代互联网数据挖掘技术,分为实时计算和离线计算两种。离线计算就是目前常用的计算方式,计算的源是基于用户生成的系统日志进行计算,并通过分类、聚类等数据模型进行相关的统计而得出排行榜、用户行为习惯、相关的热点等数据。当前离线系统最常用 的是两种,一种是小数据的单机的数据分析,可以通过简单的脚本程序、分析出想要的结果数据,一种是大数据的分布式的数据挖掘,大数据一般采用hadoop、hdfs、hbase等国外开源成型的解决方案,用于处理海量的离线数据,并将处理结果的数据,存放在数据库、缓存中,给以后的前端应用使用。而实时计算,是收集互联网用户实时产生的数据,并直 ...
【技术保护点】
一种互联网实时计算方法,包括:根据用户在网站上的操作,前端服务器生成指定格式的消息日志并发送所生成的指定格式的消息日志;中心消息日志收发处理单元接收所述前端服务器发送的消息日志,并根据消息日志的属性,分发消息日志到后端的相应的实时计算模型单元中;所述实时计算模型单元对接收到的消息日志进行预定的计算,把计算结果放在内存或者磁盘中,或将结果作为API供其他程序调用。
【技术特征摘要】
1.一种互联网实时计算方法,包括 根据用户在网站上的操作,前端服务器生成指定格式的消息日志并发送所生成的指定格式的消息日志; 中心消息日志收发处理单元接收所述前端服务器发送的消息日志,并根据消息日志的属性,分发消息日志到后端的相应的实时计算模型单元中; 所述实时计算模型单元对接收到的消息日志进行预定的计算,把计算结果放在内存或者磁盘中,或将结果作为API供其他程序调用。2.如权利要求I所述的方法,其特征在于,所述指定格式的消息日志包含了所述实时计算模型单元所需要的元数据,所述元数据具体为用户的MD、或操作时间、或操作类型、或文章内容等。3.如权利要求I所述的方法,其特征在于,所述实时计算模型单元为实时活跃用户分析模型。4.如权利要求I所述的方法,其特征在于,所述实时计算模型单元为实时热点排行模型单元;以及 所述实时计算模型单元对接收到的消息日志进行预定的计算具体为 所述实时热点排行模型,采用实时热点排行榜算法,所述算法采用时间片分割方法,把时间分为各个长度的自然时间段,多维度反应当前数据的热点排行。5.如权利要求4所述的方法,其特征在于,所述实时热点排行榜算法为TF/IDF、隐马尔可夫链、决策树、贝叶斯算法中的一种或几种。6.如权利要求I所述的方法,其特征在于,所述实...
【专利技术属性】
技术研发人员:何跃,汤晓刚,
申请(专利权)人:新浪网技术中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。