一种基于分布式并行处理模式的社交网络好友过滤方法技术

技术编号:15400881 阅读:73 留言:0更新日期:2017-05-24 12:00
本发明专利技术公开了一种基于分布式并行处理模式的社交网络好友过滤方法,包括:(1)从社交网站采集数据,并按照数据采集的先后顺序存储该数据,(2)基于分布式并行处理框架结构对采集的数据中的社交行为信息进行过滤,以产生用户关注和关注用户的好友信息,(3)基于分布式并行处理框架结构对采集的数据中的好友信息、兴趣信息和个人信息进行过滤,并根据用户与好友的相似度按照从小到大的顺序对好友进行排列,用化简函数合并步骤(2)和(3)中过滤后的信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系。本发明专利技术解决了目前社交网站存储和网络资源浪费、用户体验降低的问题,并提供了一种准确、高效的好友过滤服务。

A social network buddy filtering method based on distributed parallel processing mode

The invention discloses a distributed parallel processing mode filtering method based on social network friends, including: (1) from the social networking site to collect data, and according to the data acquisition sequence of the stored data, (2) distributed parallel processing framework to collect data in the social behavior of information filtering based on, to produce user attention and focus on the user's friends information, (3) distributed parallel processing framework to filter the data collected in the friends information, interest and personal information based on the information, and according to the user and the friends of the similarity according to the sequence of friends arranged by simplifying the function merge step (2) and (3) after filtering the information, the mapping relationship between friends to establish user, social behavior information on the user's access to the two. The invention solves the problem that the current social network storage and network resources are wasted and the user experience is reduced, and an accurate and efficient friend filtering service is provided.

【技术实现步骤摘要】
一种基于分布式并行处理模式的社交网络好友过滤方法
本专利技术属于分布式计算和社交网络
,更具体地,涉及一种基于分布式并行处理模式的社交网络好友过滤方法。
技术介绍
随着Twitter、Facebook等社交网络的日益流行,通过网络结交兴趣相投的朋友成为一种趋势。为提高用户在这类应用中的体验,一种有效做法是向用户推荐潜在好友,扩大其朋友圈子。而随着社交规模的扩大,信息的海量增长,用户数据呈现如下特点:多样性、异构性和个性化、用户访问的高并发性和动态性,以及数据自身的复杂性等。随着社交圈的扩增和变化,用户已经很难在过载的噪声信息中,发现自己想要了解的好友信息。为了解决信息过载的问题,各大社交网站采取的策略包括:Facebook的好友列表过滤,基于兴趣的好友分组功能;Google+的圈子功能;人人网的特别关注功能;新浪微博的特别收听功能等等。这些方法的一个共同特点是从海量的信息中凸显出用户真正关注的人或话题,进而帮助用户更好的获取知识。目前社交网站所采取的应对策略普遍存在一些问题:1、存储资源的浪费。用户的关注重心已转入特别关注的人或话题上,而存储系统还需对噪声信息进行存储和管理,造成存储资源的严重浪费。2、网络资源的浪费。用户请求页面信息时,服务器会将海量的噪声信息一同反馈给用户,在海量的并发请求中,严重降低了网络资源的有效利用率。3、用户体验的降低。用户需要自己筛选和管理特别关注的人或话题,同时特别关注的人或话题也会因为用户管理不善导致信息过载,增加了用户的社交负担,降低了用户体验质量。
技术实现思路
针对现有技术的缺陷,本专利技术的目的在于提供一种基于分布式并行处理模式的社交网络好友过滤方法,旨在解决目前社交网站采取的策略导致的存储资源浪费、网络资源浪费、用户体验降低的问题,并提供一种准确、高效的好友过滤服务。为实现上述目的,本专利技术提供了一种基于分布式并行处理模式的社交网络好友过滤方法,包括以下步骤:(1)从社交网站采集数据,并按照数据采集的先后顺序存储该数据,具体包括有好友信息、社交行为信息、兴趣信息、个人信息;(2)基于分布式并行处理框架结构对采集的数据中的社交行为信息进行过滤,以产生用户关注和关注用户的好友信息;(3)基于分布式并行处理框架结构对采集的数据中的好友信息、兴趣信息和个人信息进行过滤,并根据用户与好友的相似度按照从小到大的顺序对好友进行排列;(4)用化简函数合并步骤(2)和(3)中过滤后的信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系。步骤(1)中,采集信息的时间可以根据用户需求进行设置。分布式并行处理框架结构采用MapReduce框架结构。步骤(2)包括以下子步骤:(2-1)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的社交行为信息和对该社交行为信息进行访问的好友三者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((user_id),(item_id,friend_id)),其中user_id表示用户在社交网站中的序列号,item_id表示用户的社交行为信息,包括该用户发表的日志、照片、状态,friend_id表示好友信息中对用户的社交行为信息进行访问的好友的序列号;(2-2)使用本地化简函数提取重新排列后的数据中的好友信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id);(2-3)采用映射函数将存储的数据进行重新排列,以建立对该社交行为信息进行访问的用户好友的好友、用户好友的社交行为信息、用户好友三者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((friendfriend_id),(item_id,friend_id)),其中friendfriend_id表示好友的好友信息中,对好友的社交行为信息进行访问的好友的序列号,friend_id表示好友在社交网站中的序列号,item_id表示好友的社交行为信息,包括该用户发表的日志、照片、状态;(2-4)使用本地化简函数提取步骤(2-3)重新排列后的数据中的好友信息,以建立对该用户好友的社交行为信息进行访问的该用户好友的好友、用户好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(friendfriend_id,friend_id);(2-5)使用本地化简函数合并步骤(2-4)提取后的数据中的好友信息,合并键为firendfriend_id=user_id的键值对,以建立用户、该用户对好友社交行为信息进行访问的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id);(2-6)使用分布式化简函数合并(2-2)和(2-5)处理后的数据中的好友信息,以建立用户、对该用户的社交行为信息进行访问的好友或被该用户访问过社交信息的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id),过程结束;映射函数采用的是map函数,本地化简函数采用的是combine函数,分布式化简函数采用的是reduce函数。步骤(3)包括以下子步骤:(3-1)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的好友信息、该用户的兴趣信息、该用户好友的兴趣信息四者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((user_id),(friend_id,(userinterest_id),(friendinterest_id))),其中userinterest_id表示用户兴趣在社交网站中的序列号,friendinterest_id表示用户好友兴趣在社交网站中的序列号;(3-2)使用本地化简函数首先根据用户兴趣相似度算法计算用户与其好友的共同兴趣相似度,并按照共同兴趣相似度由小到大提取重新排列后的数据中的好友信息,以建立用户与其好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id),并从好友信息中提取前X个共同兴趣相似度对应的好友信息,其中X取值为小于等于用户的好友信息总数,共同兴趣相似度其中N(u)表示用户兴趣集合(userinterest_id1,userinterest_id2…),N(v)表示用户好友兴趣集合(friendinterest_id1,firendinterest_id2…),N(i)表示用户兴趣集合N(u)和用户好友兴趣集合N(v)的交集;(3-3)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的好友信息、该用户的个人信息、该用户好友的个人信息四者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((user_id),(friend_id,(userinfo_id),(friendinfo_id))),其中userinfo_id表示用户个人信息在社交网站中的序列号,friendinfo_id表示用户好友的个人信息在社交网站中的序列号;(3-4)使用本地化简函数首先根据余弦相似度计算用户与其好友的共同个人信息相似度,并按照共同个人信息相似度本文档来自技高网...
一种基于分布式并行处理模式的社交网络好友过滤方法

【技术保护点】
一种基于分布式并行处理模式的社交网络好友过滤方法,其特征在于,包括以下步骤:(1)从社交网站采集数据,并按照数据采集的先后顺序存储该数据,具体包括有好友信息、社交行为信息、兴趣信息、个人信息;(2)基于分布式并行处理框架结构对采集的数据中的社交行为信息进行过滤,以产生用户关注和关注用户的好友信息;(3)基于分布式并行处理框架结构对采集的数据中的好友信息、兴趣信息和个人信息进行过滤,并根据用户与好友的相似度按照从小到大的顺序对好友进行排列;(4)用化简函数合并步骤(2)和(3)中过滤后的信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系。

【技术特征摘要】
1.一种基于分布式并行处理模式的社交网络好友过滤方法,其特征在于,包括以下步骤:(1)从社交网站采集数据,并按照数据采集的先后顺序存储该数据,具体包括有好友信息、社交行为信息、兴趣信息、个人信息;(2)基于分布式并行处理框架结构对采集的数据中的社交行为信息进行过滤,以产生用户关注和关注用户的好友信息;(3)基于分布式并行处理框架结构对采集的数据中的好友信息、兴趣信息和个人信息进行过滤,并根据用户与好友的相似度按照从小到大的顺序对好友进行排列;(4)用化简函数合并步骤(2)和(3)中过滤后的信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系。2.根据权利要求1所述的社交网络好友过滤方法,其特征在于,步骤(1)中,采集信息的时间可以根据用户需求进行设置。3.根据权利要求1所述的社交网络好友过滤方法,其特征在于,分布式并行处理框架结构采用MapReduce框架结构。4.根据权利要求1所述的社交网络好友过滤方法,其特征在于,步骤(2)包括以下子步骤:(2-1)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的社交行为信息和对该社交行为信息进行访问的好友三者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((user_id),(item_id,friend_id)),其中user_id表示用户在社交网站中的序列号,item_id表示用户的社交行为信息,包括该用户发表的日志、照片、状态,friend_id表示好友信息中对用户的社交行为信息进行访问的好友的序列号;(2-2)使用本地化简函数提取重新排列后的数据中的好友信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id);(2-3)采用映射函数将存储的数据进行重新排列,以建立对该社交行为信息进行访问的用户好友的好友、用户好友的社交行为信息、用户好友三者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((friendfriend_id),(item_id,friend_id)),其中friendfriend_id表示好友的好友信息中,对好友的社交行为信息进行访问的好友的序列号,friend_id表示好友在社交网站中的序列号,item_id表示好友的社交行为信息,包括该用户发表的日志、照片、状态;(2-4)使用本地化简函数提取步骤(2-3)重新排列后的数据中的好友信息,以建立对该用户好友的社交行为信息进行访问的该用户好友的好友、用户好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(friendfriend_id,friend_id);(2-5)使用本地化简函数合并步骤(2-4)提取后的数据中的好友信息,合并键为firendfriend_id=user_id的键值对,以建立用户、该用户对好友社交行为信息进行访问的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id);(2-6)使用分布式化简函数合并(2-2)和(2-5)处理后的数据中的好友信息,以建立用户、对该用户的社交行为信息进行访问的好友或被该用户访问过社交信息的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id),过程结束。5.根据权利要求4所述的社交网络好友过滤方法,其特征在于,映射函数采用的是map函数,本地化简函数采用的是combine函数,分布式化简函数采用的是reduce函数。6.根据权利要求4所述的社交网络好友过滤方法,其特征在于,步骤(3)包括以下子步骤:(3-1)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的好友信息、该用户的兴趣信息、该用户好友的兴趣信息四者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((user_id),(friend_id,(user...

【专利技术属性】
技术研发人员:王芳冯丹吴雪瑞
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1