一种基于多视角学习的正类和无标记的图数据分类方法技术

技术编号：22330780 阅读：32 留言：0更新日期：2019-10-19 12:24

本发明专利技术公开了一种基于多视角学习的正类和无标记的图数据分类方法，首先构建图数据的多个视角，即通过多个不同图数据特征提取方法，将图数据样本转换成多个不同的特征矢量；接着利用图数据的多个视角构建评估函数来确定样本与标签的关系，基于排序支持向量机(rankingSVM)构建评估函数，图数据样本越有可能是正类则其经评估函数计算的得分越高，即构建的评估函数满足正类图数据的得分大于负类图数据的得分；最终对于给定的图数据样本，先获得其多个视角，然后通过评估函数计算得分，从而预测给定图数据样本的标签；本发明专利技术能够有效利用图数据的多视角来处理基于正样本和无标记样本的图数据分类，保证分类的准确性。

A classification method of positive and unmarked graph data based on multi perspective learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多视角学习的正类和无标记的图数据分类方法
本专利技术涉及机器学习
，具体涉及一种基于多视角学习的正类和无标记的图数据分类方法。
技术介绍
随着大数据时代的发展，图数据的分类受到越来越多人的关注，其原因是图数据有强大的表现力。图数据可以用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有某种关系。图数据(graphdata)是一种抽象的数据结构，由顶点和边构成。许多元素可以使用图数据描述或建模，如DNA、化合物、社交网络等。图数据分类，指根据图数据的不同特征，将其分类成正类或负类。大部分现有的图数据分类方法都是假设训练样本里存在正类和负类，但在部分实际应用中，训练样本只存在正类的和无标签的(可能是正类也可能是负类)，例如在药物研究中，研究人员更容易发现某些化合物对疾病有积极作用。在这种情况下，基于正样本和无标记样本(positiveandunlabeledlearning)的通用方法可以用于图数据分类。在现有的PU问题研究中，最常见的PU分类方法有三类：(Ⅰ)基于两步策略的方法(two-stepstrategybasedmethods)；(Ⅱ)基于概率估计的方法(probabilityestimationbasedmethods)；(Ⅲ)基于成分敏感的方法(cost-sensitivebasedmethods)。基于两步策略的方法首先从无标签的样本中选择可靠的负类实例或可靠的正类实例，然后使用正类实例和负类实例构建分类器；基于概率估计的方法是估计样本属于正类的概率，然后进行预测；基于成本敏感的方法是通过对正类样...

【技术保护点】
1.一种基于多视角学习的正类和无标记的图数据分类方法，其特征在于，包括下述步骤：(1)参数设置；设置每个视角的权重γv,γv反应图数据第v个视角的重要性；设置惩罚因子

【技术特征摘要】
1.一种基于多视角学习的正类和无标记的图数据分类方法，其特征在于，包括下述步骤：(1)参数设置；设置每个视角的权重γv,γv反应图数据第v个视角的重要性；设置惩罚因子其允许训练过程中的错误；设置正则化参数ε1，ε2；设置非负松弛变量非负松弛变量用来保证图数据视角a与视角b一致性；(2)多视角构建；对于多视角构建，可采用不同的特征提取方法对图数据进行映射，如图数据转化为矢量(graph2vec)和挖掘频繁子图；用表示第v种映射方法，则对于图数据样本Gi，有m种映射方法则有m个视角(3)确定评估函数；由于模型处理的是多视角数据，即评估函数也应遵循...

【专利技术属性】
技术研发人员：钟昊文，刘波，肖燕珊，林志全，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人