基于有向超图的移动社交网络数据分片方法技术

技术编号:12484172 阅读:59 留言:0更新日期:2015-12-10 22:10
本发明专利技术公开一种基于有向超图的移动社交网络数据分片方法,属于数据处理技术领域。本发明专利技术根据移动社交网络用户交互的多路性和有向性等特点,引入有向超图理论来表示移动社交网络交互,建立了基于有向超图的移动社交网络用户交互模型,在此基础上通过对用户交互有向超图的划分实现对移动社交网络数据的划分,并给出移动社交网络数据分片动态调整方法。本发明专利技术综合考虑到移动社交网络的各项特征,通过设置各类超边的权值,可将其应用于不同类型的移动社交网络数据分片场景下,使得各分片负载均衡且各分片间通讯量减少。

【技术实现步骤摘要】

本专利技术属于数据存储
,具体涉及一种基于有向超图的移动社交网络数据 分片方法。
技术介绍
据统计,至2014年12月,我国手机网民数相比2013年增加5672万人,已达到 5. 57亿。与此同时,社交网络应用已成为移动终端中第四大用户覆盖率应用,覆盖占比达到 60. 2%,社交网络已成为移动端巨大的流量入口,日益增加的用户数、越来越多的交互信息 等给后台支撑系统带来了巨大的压力。后台支撑系统扩展的方法主要分为两大类:垂直扩 展和水平扩展。垂直扩展是通过升级硬件配置来实现的,而由于移动社交网络应用规模的 不可确定性,采用垂直扩展不仅代价大,而且随着应用规模的进一步扩大需不断地进行垂 直扩展。水平扩展具有灵活、代价小的特点,只需添加新的机器,并将一部分数据及业务请 求分配给新的机器,即可实现扩展。而采用水平扩展的方法,在存储方面需对数据进行分布 式存储,数据分片算法将直接影响着支撑系统的性能表现。 国内外对数据分片问题进行了广泛深入的研究,主要分为两类:通用数据分片算 法、特殊类型数据分片算法。通用数据分片算法中最为常见的是简单的Hash方法,在确定 分片数后,采用哈希函数对数据进行划分。虽然这种方法可以避免数据量的倾斜,但这种简 单的机制不能捕获内在的用户间的社交关系并且有可能导致通信代价过高。 特殊类型数据分片算法中的特殊类型指数据的结构具有一定特征,如以树结构、 图结构为主结构的数据,移动社交网络数据可以描述成以图为基础结构的数据,图数据具 有强耦合的特点,研究者提出了许多基于图的数据分片算法,如递归二分的算法框架:在每 轮二分中,首先将图随机划分成两等分,然后对于交换任意两个顶点能造成的收益值进行 估价,再从中选出收益最高的点对进行交换。但这种方法通常只能处理104个顶点规模以 内的图,而移动社交网络中顶点规模是远远大于这个值的。对图数据进行边的划分,即将边 的集合等分到k个划分上,这种方法可以使得同步顶点副本状态时,通讯数量最小化。由于 移动社交网络应用中大多数操作都与社交关系有关。若在数据分片时只考虑各分片数据量 的均衡,易造成机器之间负载的不均衡,同时使得机器之间频繁地进行网络通信。 基于图的数据分片算法中有一些算法已经开始将社交网络中的社交关系和交互 情况作为数据划分的依据。如SPAR方法,首次利用社交网络特性来解决社会网络中数据 的划分问题,使得后端支撑系统具有良好的水平扩展能力,其设计原则是:划分方面,确保 尽可能多地保留基本社会结构;复制方面,确保所有的单跳邻居数据存放在同一台服务器 上,以保证数据的本地语义。而通过分析在线社交网络的数据集,发现社交网络中一般用户 只与他们好友中的22. 03 %进行交互,这一点是符合帕累托分布属性的。因此SPAR方法会 造成大量的数据冗余,在进行写操作时,副本写操作代价会偏大。在SPAR方法的基础上,有 人利用了在线社交网络中用户的社交连通性信息以及Gossip技术,有效地降低了副本拷 贝代价。然而在社交网络环境中,基本社会结构即我们通常理解的好友关系并不能直接地 反映出交互关系。为此,又有人提出在线动态划分与复制算法WEPAR,综合考虑了社交网络 中的读操作、写操作以及副本拷贝代价,但并没有考虑到存储容量的限制;COSI方法根据 查询记录来划分社交网络,可以有效地优化静态查询工作负载,但很难应用于动态查询工 作负载中。近两年,将超图理论应用到数据分片成为一种趋势,通过将历史查询负载记录构 建成一个加权超图,并以此为依据进行数据划分,或者将先前工作负载中的时态信息构建 成一个超图,来预测未来的查询模式,同步进行这个超图的分区和复制。以上两种方法都采 用的是无向超图对用户交互行为进行建模,其忽略了社交网络中交互的有向性。
技术实现思路
针对现有技术所存在的上述不足之处,本专利技术提供了一种基于有向超图的移动社 交网络数据分片方法,充分考虑移动社交网络用户交互特点,建立基于有向超图的移动社 交网络用户交互模型,并在此基础上通过对用户交互有向超图的划分实现对移动社交网络 数据的划分,保证将经常进行交互的用户尽量分布在相同的片上。 ,包括以下步骤: 步骤1)构建基于有向超图的移动社交网络用户交互模型; 步骤2)对移动社交网络用户交互有向超图进行分片; 步骤3)根据移动社交网络用户交互有向超图的分片结果对移动社交网络数据进 行分片; 步骤4)移动社交网络数据分片动态调整。 所述步骤1)中构建基于有向超图的移动社交网络用户交互模型的过程为: 定义移动社交网络用户交互有向超图为SHG =〈V,E〉,V = Iv1, V2,…,vn}为 有向超图的结点集,代表移动社交网络中的用户,n= |V|为有向超图的阶,即用户数, Vi (i G )表不第 i 个用户,Vi= IuIDi, UDatai, UActivenessi, UPositioni, uCopyJ,UlDi 为用户标识;UDatai为第i个用户的数据大小;UActivenessi为第i个用户在时间段T =[tbf3gin, 内的活跃度,f 其中(KuIDi, t, t+Δ t)为 时刻t起At时间段内第i个用户进行的所有交互的总次数,f(t)是t时刻的衰退因子,:,'其中t e T !UPositioni为第i个用户的位置信息,采用(longitude, latitude)形式表示,其中longitude为经度,latitude为炜度;UCopyi为第i个用户的副 本数目,初始设置为0。有向超边集E= Ie1, e2,…,e丄m= |E|,m为有向超图SHG的边数, 有向超边eq= {eIq,hIq,EWq,eTypeq,Qq},qe ,eq表示在移动社交网络中的第elq个 用户对用户序号在hlq中的所有用户进行了 eTypeq类型的交互行为,其中elq为超边尾结点 序号,hlq为超边头结点的序号集,超边头、尾结点序号的取值范围是 ;EWq为超边的权 值,表示eq所表示的交互行为在社交关系中的影响力,=Zfeax... xC?,Qq为时间段T内 eq所表示的交互行为执行的总次数,夂Tyn为eTypeq类型的交互行为的权重系数,其取值范 围是 ;eTypeq为超边的类型,初始设置2种超边类型:SM-社交关系管理类、SI-社交 互动类,可根据实际使用情况自定义。 对移动社交网络用户交互有向超图进行划分,即将点集V划分为P =扒,P2,… ,P1J,k个子集,是通过优化求解以下数学模型得到: U κ kPs= V 其中采用基尼系数rintCTartl?来表示移动社交网络中交互行为负载均衡的程度, 值越小表示越平衡,范围是,其中 Λ intCTaetl°n表示所有分片上交互行为的负载之和,其中f表 示第S个分片上交互行为的负载,表示各分片之间的 通信量之和,其中当Sq= 1时,表示eq中超边头结点和尾结点被划分在不同分片中,否则"?呆证各划分的数据量不超过最大限制;U K kPs= V保证 划分结果包含了所有用户。 所述的步骤2)对移动社交网络用户交互有向超图进行划分包括以下步骤: 步骤201)设定分片数k、最大副本数c,初始化分片结果集P = (P1, P2,…,PJ,其 *P本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105138536.html" title="基于有向超图的移动社交网络数据分片方法原文来自X技术">基于有向超图的移动社交网络数据分片方法</a>

【技术保护点】
基于有向超图的移动社交网络数据分片方法,其特征在于,包括以下步骤:步骤1)构建基于有向超图的移动社交网络用户交互模型;步骤2)对移动社交网络用户交互有向超图进行分片;步骤3)根据移动社交网络用户交互有向超图的分片结果对移动社交网络数据进行分片;步骤4)移动社交网络数据分片动态调整。

【技术特征摘要】

【专利技术属性】
技术研发人员:程春玲王青芸
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1