在线交友网站的魅力用户推荐平台制造技术

技术编号:9694726 阅读:88 留言:0更新日期:2014-02-21 01:04
一种在线交友网站的魅力用户推荐平台,旨在解决在大数据环境下社交网络中用户的社交价值的估计,并在此基础上构建平台将结果准确、及时、有效的服务于网站的各种应用。包括以下模块:(1)前端模块,用于和用户的交互并收集数据;(2)海量日志服务器,用于海量日志的存储;(3)数据存储和预处理模块,基于Hadoop集群,用于对原始日志进行初步处理,供算法模块使用;(4)离线算法模块,为算法和模型训练模块,使用数据挖掘和机器学习的算法,具有自适应的调整自身参数的特点,有一定的智能性;(5)实时推荐模块,用于提供魅力用户推荐的个性化实时服务;(6)监控模块;(7)统计与展示模块。

【技术实现步骤摘要】
在线交友网站的魅力用户推荐平台
本专利技术涉及在线交友网站的推荐
,具体涉及在线交友网站的魅力用户推荐平台。
技术介绍
在当今的在线交友网站中,有着海量的用户群体,对用户进行个性化的推荐和服务能够更好的提高用户体验,从而提高网站的市场占有率和公司收益。作为在线交友网站,对用户在社交中的价值进行准确估计,将更有利于对用户进行准确定位,以更好的提高服务的针对性和有效性。而对于互联网站中海量的用户群体(千万量级),使用人工分析的方法显然是不可能的,因此,使用大规模的机器学习和数据挖掘方法成为一种必然。目前对于交友网站的用户推荐系统,由于数量大、个性化程度强、结构复杂等一系列问题,尚处于一个不太成熟的阶段,主要方法包括:基于内容匹配的方法、协同过滤算法、图算法等。而对于用户的社交价值进行估计,从而在此基础上进行魅力用户的相关推荐,国内外尚无公开的已大规模投入应用的平台。
技术实现思路
本专利技术旨在解决在大数据环境下社交网络中用户的社交价值的估计,并能够自适应的调整参数以适应用户群体和网络环境的变化,并在此基础上构建平台将结果准确、及时、有效的服务于网站的各种应用,针对用户进行个性化的服务。为完成这一目标,本系统主要包括以下模块:(I)前端模块,用于和用户的交互并收集数据;(2)海量日志服务器,用于海量日志的存储;(3)数据存储和预处理模块,基于Hadoop集群,用于对原始日志进行初步处理,供算法模块使用;(4)离线算法模块,为算法和模型训练模块,使用数据挖掘和机器学习的算法,具有自适应的调整自身参数的特点,有一定的智能性;(5)实时推荐模块,用于提供魅力用户推荐的个性化实时服务;(6)监控模块;(7)统计与展示模块。本专利技术已经在世纪佳缘网站中的多个产品中得到了应用,从实际效果来看,用户体验和产品收益效果均得到了不同程度的提升。【附图说明】附图为本专利技术的示意图。【具体实施方式】下面结合附图对本专利技术做详细描述。I)前台模块为网站与用户交互的接口,和各种产品结合,接受用户的点击、输入等并向用户返回、展示信息。2)海量日志服务器主要用于记录用户的属性信息(如性别,年龄,职业等)和行为信息(如发信,收信,点击等)。由于网站用户量大,流量高,要求日志服务器要有较高的吞吐量和实时性。3)数据存储和预处理模块对原始的日志记录进行提取、变换、存储,提取出机器学习模型所需要的各种信息,并对数据的正确性进行检查,清理错误数据,对错误值、缺失值进行预处理,整理格式。由于网站的数据量很大,因此该模块搭建在Hadoop集群和Hive数据仓库之上,以分布式的方式进行处理。4)离线算法模块使用数据挖掘和机器学习的算法,包括模型的建立,更新,选择和训练,对于小规模的数据可使用本地训练的方式,大规模数据需使用Hadoop分布式处理。所使用的模型包括:(1)基于用户行为的统计方法:根据用户的展示次数、发信次数、所产生的消费次数等数据,使用点击率、转化率等指标进行排序。具体定义为:a)点击率CTR =— D其中V为用户被浏览的次数,D为用户被展示的次数b)发信转化率C1 = ^其中S为用户被发信 的次数,D为用户被展示的次数c)付费转化率C7 = s^- 1 S其中S胃为向该用户付费发信的次数,S为向该用户发信的总次数以上三个指标,值越高,说明用户在当前交友网站中越热门,受欢迎程度越高。(2)基于图算法的方法:根据用户联系记录构建社交图,在此基础上使用PageRank方法评估用户社交价值。PageRank的基本思想是,从许多优质的网页链接过来的网页,必定还是优质网页,由此来判定所有网页的重要性。将这一思想应用于社交网络中,可以认为,一个用户的社交价值由联系他的用户的社交价值决定,联系过他的用户越优秀,则可以认为该用户越优秀。具体用公式表示为V,- = a nIijVj其中Vi为用户的PageRank值,代表了用户的社交价值。若用户j共联系过k个人,且j联系过i,则Hiij = Ι/ko其他情况Hiij = O写成矩阵形式为V = Mv5)实时推荐模块为依据离线算法模块所计算出的模型,实时获取前台模块的数据,进行实时的查询、计算,并将结果返回给调用方,以提供魅力用户推荐的个性化实时服务。该模块包括两种提供服务的方式:(I)将离线计算的结果存储到MySQL数据库中,并使用PHP实现数据获取接口 ;(2)使用Java实现Web服务,并运行于Tomcat或Dubbo集群之上,以HTTP服务的形式提供给网站产品使用。6)监控模块监控整个系统的运行状态是否正常,对数据存储和预处理模块、离线计算模块等计算为主的模块进行计算结果的正确性检查,对前台模块、海量日志服务器、实时推荐模块的实时性、正确性进行监控,发现错误后进行出错处理及报警,必要时重启服务。7)统计与展示模块提供系统的运行结果统计,以供相关人员查阅。包括所处理的数据量、模型训练结果、数据概括、前端请求次数、实际效果等有关功能和性能的统计量,这些统计量可以提供系统运行的整体效果和性能。本文档来自技高网...

【技术保护点】
一种在线交友网站的魅力用户推荐平台,包括以下模块:(1)前端模块;(2)海量日志服务器;(3)数据存储和预处理模块,基于Hadoop分布式平台;(4)离线算法模块,使用数据挖掘和机器学习算法,具有一定的智能性;(5)实时推荐模块;(6)监控模块;(7)统计与展示模块。

【技术特征摘要】
1.一种在线交友网站的魅力用户推荐平台,包括以下模块:(1)前端模块;(2)海量日志服务器;(3)数据存储和预处理模块,基于Hadoop...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:北京爱真心信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1