一种基于GPU多序列比对算法的社交网络关联搜索方法技术

技术编号:7718699 阅读:377 留言:0更新日期:2012-08-30 02:50
本发明专利技术公开了一种基于GPU多序列比对算法的社交网络关联搜索方法,包括以下步骤:CPU对个体网页进行网络爬虫,以提取社交网络中的个体特征信息向量,CPU过滤个体特征信息向量中的冗余特征信息,以生成统一个体特征信息向量库,GPU根据统一个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵,GPU根据矫正距离矩阵构建社交网络关联路线指导树,GPU遍历社交网络关联路线指导树,以进行最优关联路线搜索。本发明专利技术充分利用GPU适合处理大量密集型数据的优势,将多序列比对算法解决关联搜索问题进行并行化,利用GPU完成矩阵及关联路线指导树的形成和遍历等复杂耗时操作,解决了社交网络数据量大和操作复杂性所带来的耗时长问题。

【技术实现步骤摘要】

本专利技术属于社交网络应用领域,更具体地,涉及ー种GPU平台下实现基于多序列比对算法的社交网络关联搜索方法。
技术介绍
在社交网络中,存在著名的“六度分割(Six degrees of Separation) ”理论,即世界上任何两个个体,最多通过六个个体即可建立联系,亦称之为“小世界(Small World)”理论。随着社交网络的不断发展,对个体间关联路线的研究日渐成为社交网络应用的研究热点,即模拟验证“六度分割”理论,探索社交网络中任意两个体如何构建路线,建立关联关系。现阶段,社交网络中个体间关联度的判定一般根据个体基本信息计算得出,不具有全面性和扩展性。同时,随着社交网络的发展,寻求个体间关联路线成为ー种社交需求, 不仅需要得到任意两个个体的关联度数据,还要捜索其构建关联的最优路线。经调研得出,目前尚未形成ー套成熟的算法体系(即社交网络关联搜索)研究个体间如何构建联系。在生物信息学领域,多序列比对算法被证实能有效寻找生物序列同源性关系,可推广应用于寻找其他个体或事物之间的联系。多序列比对算法的基本处理过程分为三个基本阶段序列两两比对构建距离矩阵(Smith-Waterman算法);根据距离矩阵构建关联进化路线指导树(Neighbor-Joining算法);循环重构进化指导树,完成所有序列比对(Profile-Profile算法)。通过三个阶段的处理,可找出基因库中两序列间进化路线及亲缘远近关系。将该算法思想进行改进并推广应用于社交网络中,可探索个体间关联路线,寻找任意两个体构建关联关系的路径。与此同时,随着社交网络的日益发展和用户数量不断増加,海量数据管理变得困难,数据操作的复杂性越来越高,传统的CPU无法达到准确快速获取个体关联路线搜索的目的。
技术实现思路
针对现有技术的缺陷,本专利技术的目的在于提供一种基于GPU多序列比对算法的社交网络关联搜索方法,g在解决在GPU上实现社交网络关联搜索、任意指定社交网络中两个体并快速高效搜索出个体间最优关联路线的问题。为实现上述目的,本专利技术提供了一种基于GPU多序列比对算法的社交网络关联搜索方法,包括以下步骤(I)CPU对个体网页进行网络爬虫,以提取社交网络中的个体特征信息向量(T1,T2, T3J ,Tn);(2) CPU过滤所述个体特征信息向量(T1, T2, T3, , Tn)中的冗余特征信息,以生成统ー个体特征信息向量库CPU对所述个体特征信息向量(T1, T2, T3, , Tn)的特征属性进行语义分析,以得出所述个体特征向量对应的特征属性集{Pp p2,p3,...,PJ ;CPU对所述特征属性集{Pi,P2,P3,...,Pn}的属性元素进行模拟训练,计算所述属性元素对个体间关联度的贡献因子,并得出与所述特征属性集{Pi,p2,p3,... ,PJ对应的特征贡献因子分数集{Si,S2, S3, , SJ ;CPU根据网络聚焦算法,对所述特征贡献因子分数集{Si,S2, S3, , SJ进行模拟评估处理,计算得出贡献因子分数阈值Smin,Sfflax);设置计数器C,并初始化c=l;CPU判断所述特征贡献因子分数集以,S2, S3, , SJ中的元素S。是否在所述贡献因子分数阈值(smin, S-)范围内;若元素S。在贡献因子分数阈值(Smin,Sfflax)范围内,则保留S。,并保留与S。对应的属性P。;判断c是否大于等于n;若c大于等于n,则CPU得出统ー特征贡献因子分数集{Si,S2,S3,. . . ,Sj和统ー标准的特征属性集(PUijPU2jPU3, , PUJ,并根据统ー标准的特征属性集(PUijPU2jPU3, ,PUJ对个体特征信息向量(TpT2J3,. . . ,Tn)进行批量过滤处理,以得到与统ー标准特征属性集(PU1, PU2, PU3, , PUJ对应的统ー个体特征信息向量(TU1, TU2, TU3, , TUm),井形成统ー个体特征信息向量库;CPU将统ー特征信息向量(TU1, TU2, TU3. . .,TUm)和统ー特征贡献因子分数集(S1,S2,S3, , SJ 传入 GPU ;(3)GPU根据所述统ー个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵GPU根据所述统ー特征贡献因子分数集以,S2, S3, , SJ计算社交网络中两两个体间的距离,并构成社交网络个体距离矩阵D ;GPU获取社交网络中个体的总数C,设置计数器k,并初始化为k = C,且设置社交网络的个体集合为(E^E2J3, -,EJ ;GPU根据多序列比对算法,对社交网络个体距离矩阵D进行关联计算,即对某ー个体距离值和其他所有个体距离值进行关联处理,以得出更能真实反映个体间距离的矫正距尚矩阵M ;(4) GPU根据所述矫正距离矩阵M,构建社交网络关联路线指导树GPU将所有个体的结点构成星形初始树;GPU根据星形初始树遍历矫正距离矩阵M,以找出矫正距离矩阵M中最大的元数据对应的两个个体;GPU根据找到的两个个体生成虚拟父结点,并计算虚拟父结点到两个个体结点的 距离;GPU根据所述计算方法计算出虚拟父结点到两个个体结点的距离后,将被合并的两个个体结点去除,并计算新的结点集合对应的距离矩阵和矫正距离矩阵;设置k = k_l,即每合并两个结点生成一个新结点后,结点个体集合{Ei,E2,E3,…,Ej中结点个数减I ;判断k是否小于等于2;若k小于等于2,则进入步骤(5);(5) GPU遍历所述社交网络关联路线指导树,以确定最优关联路线GPU查找社交网络关联路线指导树中待搜索的源个体及目标个体,并建立源个体和目标个体之间的关联路线;GPU根据 关联路线进行最短路径优先计算,以筛选出最短的关联路线,即得出社交网络中源个体和目标个体间最优关联路径。本专利技术的方法还包括步骤若元素S。不在贡献因子分数阈值(Smin,S_)范围内,则从特征贡献因子分数集(S1, S2, S3, , SJ中将S。去除,并从特征属性集(P1, P2, P3,,PJ中将与S。对应的P。去除。本专利技术的方法还包括步骤若c不大于等于n,则c = c+1,并返回所述CPU判断所述特征贡献因子分数集{Si,S2,S3,. . . ,SJ中的元素Sii否在所述贡献因子分数阈值(smin,Smax)范围内的步骤。本专利技术的方法还包括步骤若k不小于等于2,则GPU计算所述新的虚拟父结点到除所述被合并的两个个体的结点以外所有结点的距离,以构成新的距离矩阵,GPU计算新的距离矩阵对应的矫正距离矩阵。GPU根据所述统ー特征贡献因子分数集以,S2, S3, , SJ计算社交网络中两两个体间的距离,并构成社交网络个体距离矩阵D的步骤具体包括GPU根据统ー特征贡献因子分数集以,S2, S3, , SJ遍历统一特征信息向量(TU1, TU2, TU3. . .,TUm),以判断统ー特征信息向量中的特征元数据的属性条件是否相同,若属性条件相同,则累加特征向量中特征元数据对应的贡献因子分数,否则进行下一个特征元数据的比较。通过本专利技术所构思的以上技术方案,与现有技术相比,具有以下的技术效果(I)本专利技术基于GPU平台实现社交网络关联搜索,充分利用GPU适合处理大量密集型数据的优势,将多序列比对算法解决关联捜索问题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1. 一种基于GPU多序列比对算法的社交网络关联搜索方法,其特征在于,包括以下步骤 (1)CPU对个体网页进行网络爬虫,以提取社交网络中的个体特征信息向量(T1,T2,T3,…,Tn); (2)CPU过滤所述个体特征信息向量(T1, T2,T3, ...,Tn)中的冗余特征信息,以生成统一个体特征信息向量库 CPU对所述个体特征信息向量(T1, T2, T3,, Tn)的特征属性进行语义分析,以得出所述个体特征向量对应的特征属性集{P1; P2,P3,...,PJ ; CPU对所述特征属性集{P1; P2, P3,, PJ的属性元素进行模拟训练,计算所述属性元素对个体间关联度的贡献因子,并得出与所述特征属性集(PpP2J3,... ,PJ对应的特征贡献因子分数集; CPU根据网络聚焦算法,对所述特征贡献因子分数集{S1; S2, S3,, SJ进行模拟评估处理,计算得出贡献因子分数阈值smin,Smax); 设置计数器C,并初始化c = I ; CPU判断所述特征贡献因子分数集{S1; S2, S3, , SJ中的元素S。是否在所述贡献因子分数阈值(smin, Smax)范围内; 若元素S。在贡献因子分数阈值(Smin,Smax)范围内,则保留S。,并保留与S。对应的属性Po; 判断C是否大于等于η ; 若C大于等于η,则CPU得出统ー特征贡献因子分数集{S1; S2, S3,, SJ和统ー标准的特征属性集{PU1; PU2, PU3, , PUJ,并根据统ー标准的特征属性集{PU1; PU2, PU3, ,PUJ对个体特征信息向量(TpT2J3,... ,Tn)进行批量过滤处理,以得到与统ー标准特征属性集{PU1;PU2,PU3, ,PUJ对应的统ー个体特征信息向量(TU1, TU2, TU3, , TUm),井形成统ー个体特征信息向量库; CPU将统ー特征信息向量(TU1, TU2, TU3. . .,TUm)和统ー特征贡献因子分数集{S1; S2,S3, , SJ 传入 GPU ; (3)GPU根据所述统ー个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵 GPU根据所述统ー特征贡献因子分数集{S1; S2, S3, , SJ计算社交网络中两两个体间的距离,并构成社交网络个体距离矩阵D ; GPU获取社交网络中个体的总数C,设置计数器k,并初始化为k = C,且设置社交网络的个体集合为(EijE27E3, -,EJ ; GPU根据多序列比对算法,对社交网络个体距离矩阵D进行关联计算,即对某一个体距离值和其他所有个体距离值进...

【专利技术属性】
技术研发人员:金海郑然陈汉华张琼瑶冯晓文
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1