基于二部图的标签传播方法技术

技术编号:20993354 阅读:32 留言:0更新日期:2019-04-29 23:06
本发明专利技术公开了一种基于二部图的标签传播方法,属于标签传播技术领域,解决基于关联网络的标签传播方法计算量大、计算效率低、同质网络连边数量多,可视化效果差的问题。本发明专利技术对收集的数据进行预处理;对收集的数据进行预处理,得到数据中的对象字段、关联字段和标签字段;使用数据中的对象字段和关联字段,建立二部图G;基于标签字段,确定对象节点的初始标签值后,先从上至下进行传播,再从下至上进行传播,得到每个节点的新标签值,确认是否需要二度关联或者三度关联后,若要再进行传播,否则根据结构判断未知标签的对象节点是否大于设定的对应某已知标签的阈值,若大于,则与已知标签的节点属于同一类别或/和标签值。本发明专利技术用于标签传播。

Label Propagation Method Based on Bipartite Graph

\u672c\u53d1\u660e\u516c\u5f00\u4e86\u4e00\u79cd\u57fa\u4e8e\u4e8c\u90e8\u56fe\u7684\u6807\u7b7e\u4f20\u64ad\u65b9\u6cd5\uff0c\u5c5e\u4e8e\u6807\u7b7e\u4f20\u64ad\u6280\u672f\u9886\u57df\uff0c\u89e3\u51b3\u57fa\u4e8e\u5173\u8054\u7f51\u7edc\u7684\u6807\u7b7e\u4f20\u64ad\u65b9\u6cd5\u8ba1\u7b97\u91cf\u5927\u3001\u8ba1\u7b97\u6548\u7387\u4f4e\u3001\u540c\u8d28\u7f51\u7edc\u8fde\u8fb9\u6570\u91cf\u591a\uff0c\u53ef\u89c6\u5316\u6548\u679c\u5dee\u7684\u95ee\u9898\u3002 The invention preprocesses the collected data, preprocesses the collected data, obtains the object field, association field and label field in the data, establishes a bipartite graph G by using the object field and association field in the data, determines the initial label value of the object node based on the label field, first propagates from top to bottom, then propagates from bottom to top, and obtains each section. If the new label value of a point is greater than the threshold of a given label, it belongs to the same category or/or label value as the node of a known label. The invention is used for label propagation.

【技术实现步骤摘要】
基于二部图的标签传播方法
一种基于二部图的标签传播方法,用于标签传播,属于标签传播

技术介绍
关键术语定义如下:关联网络:由节点和边构成的网状结构,节点表示一个对象,对象和对象之间存在一定的关系则可以形成一条连边。同构网络/异构网络:网络中所有节点都是同一种类型的网络称为同构网络,否则为异构网络。二部图:一种特殊的异构网络结构,该网络结构中存在两种类型的节点,相同类型的节点没有连边,每条连边的两个节点属于不同的节点类型。传统的标签传播方法具体如下:LPA算法的技术方案:1.对收集的数据预处理后,建立同构网络;2.选择相似度计算方式,计算同构网络节点两两之间的相似度,构建相似度矩阵。wij表示节点i和节点j的相似度,常用的计算节点相似度的方法如下:1)高斯径向基(如公式1)其中σ为超参数,且其设置对结果的影响较大;2)K近邻(如公式2)其中Ni表示i的所有K近邻节点,需要计算i与所有其它节点的距离并排序取出钱K个。公式(2)中的wij与公式(1)的wij为两个独立的计算方式,后续计算依据其中一个,或采用其它相似度计算方式都可。相似度矩阵的示例如下:将该相似度矩阵图形化后形成网络结构,如图1所示:3.按公式(3)对相似度标准化,形成转移矩阵P;转移矩阵的示例如下:4.构建标签矩阵F’=PF。FL表示已知标签的节点,为lij为1表示节点i属于类别Cj,否则表示不属于;FU表示未知标签的节点,全部预置为0。FL和FU共同构成标签矩阵F,如下所示:标签矩阵F的示例如下:表示节点A、C属于类别C1,节点B属于类别C2,节点C和节点D的标签未知,需要通过标签传播算法对其进行预测。5.按公式F’=PF传播标签;6.若未收敛或未达到设定的n次值,重置F中的带标签节点的标签,即重置FL,再重复4、5至收敛(或者重复n次)7.最终的标签矩阵F’中,每个无标签节点对应的值最大的标签即为节点的标签。综上所述,采用传统的标签传播算法存在如下不足:1.传统标签传播方法是以同构网络为基础,所有节点之间都会有连边,区别仅在于连边的权重不一样,不便于通过图形化网络来直观地展示网络结构;2.传统标签传播方法中相似度矩阵主要考虑节点主要属性,导致标签的传播在仅在主要特征相似的节点之间传播,而忽略了对网络结构的考虑。3.传统标签传播方法中构建相似度矩阵需要计算所有节点两两之间的相似度,计算复杂度高,同时如果考虑节点属性中的非数值型属性,相似度的计算更为复杂,从而造成计算效率低的问题。
技术实现思路
针对上述研究的问题,本专利技术的目的在于提供一种基于二部图的标签传播方法,解决现有技术中,基于关联网络的标签传播方法计算量大、计算效率低、同质网络连边数量多,可视化效果差的问题。为了达到上述目的,本专利技术采用如下技术方案:一种基于二部图的标签传播方法,其特征在于,如下步骤:S1、对收集的数据进行预处理,得到数据的字段为对象字段、关联字段和标签字段;S2、使用对象字段和关联字段,建立二部图G,建立的二部图包括对象节点和关联属性节点,对象节点为上层节点,关联属性节点为下层节点;S3、基于标签字段,确定对象节点的初始标签值;S4、确定初始标签值后,先从上至下进行传播,再从下至上进行传播,得到每个节点的新标签值,完成一轮传播,若需要二度关联或者三度关联的对象节点对标签值的相互影响,进行第二轮或者第三轮的传播,否则,则得到最终的每个节点的标签值;S5、判断未知标签的对象节点的标签值是否大于设定的对应某已知标签的阈值,若大于,则与已知标签的节点属于同一类别或/和标签值。进一步,所述步骤S1的具体步骤为:S1.1、对数据进行包括缺失填补、标准化、错误更正操作,保证数据的正确性和完整性;S2.1、经步骤S1.1处理后,再对数据进行结构化,即根据应用场景将数据的字段分为三类,一类是对象字段,对应的值为对象节点;一类是标签字段,用于定义对象字段的标签值,一类是关联字段,对应的值为关联属性节点,用于描述对象和对象之间的关联关系。进一步,所述步骤S3中确定对象节点的初始标签值是将已知标签的对象节点用1表示,否则用0表示。进一步,所述步骤S4的具体步骤为:S4.1、基于初始的标签值和从上至下进行传播得到的各关联属性节点的标签值,得到转移矩阵T1;转移矩阵T1的每个元素如下公式所示:其中,Aij表示二部图G的邻接矩阵,i表示对应第i个对象节点,j表示对应第j个对应关联属性节点;S4.2、基于初始的标签值和从下至上进行传播得到的各对象节点的标签值,得到转移矩阵T2;转移矩阵T2的每个元素如下公式所示:其中,T表示矩阵转置;S4.3、基于初始的标签值、转移矩阵T1和转移矩阵T2,得到每个对象节点的新标签值;S4.4、若需要二度关联或者三度关联的对象节点对标签值的相互影响,修改步骤S4.1和步骤S4.2中初始的标签值为步骤S4.3得到的每个对象节点的新标签值,再重复执行步骤S4.1-S4.4,否则得到最终的每个对象节点的标签值。进一步,所述步骤S4.1中从上至下进行传播得到的各关联属性节点的标签值的具体步骤为:S4.1.1、将对象节点的标签值均分给其相连接的边上的关联属性节点;S4.1.2、关联属性节点的标签值为所有对象节点均分传播下来的值的和,即得到各关联属性节点的标签值。进一步,所述步骤S4.2中从下至上进行传播得到的各对象节点的标签值的具体步骤为:S4.2.1、将得到的关联属性节点的标签值均分给其相连接的边上的对象节点;S4.2.1、对象节点的标签值为所有关联属性节点均分传播上来的值的和,即得到对象节点的标签值。进一步,所述步骤S4.3得到每个节点的新标签值的计算公式为:L′=LT1T2。其中,L为初始的标签向量。本专利技术同现有技术相比,其有益效果表现在:一、本专利技术免去了传统标签传播方法中计算两两节点的相似度矩阵的复杂的问题,且不需要定义相似度矩阵,提高了标签传播的计算效率;二、本专利技术抽象网络结构避免了网络中存在过多的边,使得网络图形化后结构展示更为清晰;三、本专利技术在扩展性上,由于抽象出了关联字段和标签字段,关联属性能专用于形成网络结构,标签字段能专用于定义对象的标签,因此不仅可以多类别标签进行传播,还能对通过标签字段定义的分数进行传播,所以本方案具有良好的扩展性,能够适用于更多的场景。附图说明图1为
技术介绍
中的网络结构示意图;图2为本专利技术的实施例中所构建的二部图;图3为本专利技术的实施例中从上至下进行第一次传播的示意图;图4为本专利技术的实施例中从下至上进行第二次传播的示意图;图5为本专利技术的实施例中得到每个对象节点的标签值的示意图;图6为本专利技术采用二部图的可视化图1;图7为本专利技术采用二部图的可视化图2;图8为本专利技术的流程示意图。具体实施方式下面将结合附图及具体实施方式对本专利技术作进一步的描述。一种基于二部图的标签传播方法,如下步骤:S1、对收集的数据进行预处理,得到数据的字段为对象字段、关联字段和标签字段:S1.1、对数据进行包括缺失填补、标准化、错误更正操作(无先后顺序之分),保证数据的正确性和完整性;S2.1、经步骤S1.1处理后,再对数据进行结构化,即根据应用场景将数据的字段分为三类,一类是对象字段,对应的值为对象节点;一类是标签字段,用于定义对象字段的标签值,一类本文档来自技高网
...

【技术保护点】
1.一种基于二部图的标签传播方法,其特征在于,如下步骤:S1、对收集的数据进行预处理,得到数据的字段为对象字段、关联字段和标签字段;S2、使用对象字段和关联字段,建立二部图G,建立的二部图包括对象节点和关联属性节点,对象节点为上层节点,关联属性节点为下层节点;S3、基于标签字段,确定对象节点的初始标签值;S4、确定初始标签值后,先从上至下进行传播,再从下至上进行传播,得到每个节点的新标签值,完成一轮传播,若需要二度关联或者三度关联的对象节点对标签值的相互影响,进行第二轮或者第三轮的传播,否则,则得到最终的每个节点的标签值;S5、判断未知标签的对象节点的标签值是否大于设定的对应某已知标签的阈值,若大于,则与已知标签的节点属于同一类别或/和标签值。

【技术特征摘要】
1.一种基于二部图的标签传播方法,其特征在于,如下步骤:S1、对收集的数据进行预处理,得到数据的字段为对象字段、关联字段和标签字段;S2、使用对象字段和关联字段,建立二部图G,建立的二部图包括对象节点和关联属性节点,对象节点为上层节点,关联属性节点为下层节点;S3、基于标签字段,确定对象节点的初始标签值;S4、确定初始标签值后,先从上至下进行传播,再从下至上进行传播,得到每个节点的新标签值,完成一轮传播,若需要二度关联或者三度关联的对象节点对标签值的相互影响,进行第二轮或者第三轮的传播,否则,则得到最终的每个节点的标签值;S5、判断未知标签的对象节点的标签值是否大于设定的对应某已知标签的阈值,若大于,则与已知标签的节点属于同一类别或/和标签值。2.根据权利要求1所述的一种基于二部图的标签传播方法,其特征在于,所述步骤S1的具体步骤为:S1.1、对数据进行包括缺失填补、标准化、错误更正操作,保证数据的正确性和完整性;S2.1、经步骤S1.1处理后,再对数据进行结构化,即根据应用场景将数据的字段分为三类,一类是对象字段,对应的值为对象节点;一类是标签字段,用于定义对象字段的标签值,一类是关联字段,对应的值为关联属性节点,用于描述对象和对象之间的关联关系。3.根据权利要求1或2所述的一种基于二部图的标签传播方法,其特征在于,所述步骤S3中确定对象节点的初始标签值是将已知标签的对象节点用1表示,否则用0表示。4.根据权利要求3所述的一种基于二部图的标签传播方法,其特征在于,所述步骤S4的具体步骤为:S4.1、基于初始的标签值和从上至下进行传播得到的各关联属性节点的标签值...

【专利技术属性】
技术研发人员:李辉肖羊韩晗
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1