样本标签处理方法及装置、社群划分方法及装置制造方法及图纸

技术编号:21572724 阅读:47 留言:0更新日期:2019-07-10 15:43
本说明书实施例提供了一种样本标签处理方法,通过为目标群组中不具有预设标签的样本添加所述预设标签实现扩散,通过对非目标群组中具有所述预设标签的样本删除所述预设标签实现提纯,并通过多次的迭代处理重新实现扩散和提纯,提高样本的准确性和召回率。

Sample Label Processing Method and Device, Community Partition Method and Device

【技术实现步骤摘要】
样本标签处理方法及装置、社群划分方法及装置
本说明书实施例涉及数据处理
,尤其涉及一种样本标签处理方法及装置、社群划分方法及装置。
技术介绍
机器学习是研究如何使用机器来模拟人类学习活动的一门学科,其利用大量的样本数据进行训练,获得各种形式的数据模型来解决实际问题。机器学习通常可以分为四类:有监督学习、无监督学习、半监督学习以及强化学习,其中,有监督学习、无监督学习以及半监督学习的主要区别在于用于训练的样本是否具有标签(label)。有监督学习是从标签化样本集中推断出函数的机器学习任务;无监督学习是从类别未知(没有被标记)的样本集中推断出函数的机器学习任务;半监督学习只有小部分样本具有标签,是一种有监督学习和无监督学习都可以使用的学习方法。在实际应用中,经常会遇到需要采用有监督学习或者半监督学习解决问题、但是样本标签不准确的情况。
技术实现思路
本说明书实施例提供及一种样本标签处理方法及装置、社群划分方法及装置。第一方面,本说明书实施例提供一种样本标签处理方法,包括:获取样本集,所述样本集中的部分样本具有预设标签;根据所述样本集中各个样本之间的关联关系,将所述样本集划分为H个群组,H为正整数;对所述H个群组进行L次迭代处理,直至满足收敛条件,并将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签,L为正整数;其中,每次所述迭代处理包括:根据当前每个样本的标签信息确定每个群组的群组特征;根据所述群组特征确定目标群组和非目标群组,所述目标群组为具有所述预设标签的样本聚集的群组,所述非目标群组为所述一个以上群组中除所述目标群组外的其他群组;为所述目标群组中不具有所述预设标签的样本添加所述预设标签;对所述非目标群组中具有所述预设标签的样本删除所述预设标签。第二方面,本说明书实施例提供一种社群划分方法,包括:根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;计算所述关系网络图的每个节点的度;按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;其中,所述访问所述关系网络图的每个节点包括:判断当前节点是否已加入任意一个群组;若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过N条边相关联的节点,N为正整数;将所述一个以上扩展节点加入所述新群组。第三方面,本说明书实施例提供另一种社群划分方法,包括:根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;计算所述关系网络图的每个节点的度;按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;其中,所述访问所述关系网络图的每个节点包括:判断当前节点是否已加入任意一个群组;若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过N条边相关联的节点,N为正整数;对每个扩展节点进行入群处理;其中,所述入群处理包括:判断所述扩展节点已加入的群组数量是否小于第一预设阈值;若所述扩展节点已加入的群组数量小于所述第一预设阈值,则将所述扩展节点加入所述新群组。第四方面,本说明书实施例提供一种样本标签处理装置,包括:样本集获取模块,用于获取样本集,所述样本集中的部分样本具有预设标签;样本集划分模块,用于根据所述样本集中各个样本之间的关联关系,将所述样本集划分为H个群组,H为正整数;迭代处理模块,用于对所述H个群组进行L次迭代处理,直至满足收敛条件,并将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签,L为正整数;其中,所述迭代处理模块包括:特征确定模块,用于根据当前每个样本的标签信息确定每个群组的群组特征;群组确定模块,用于根据所述群组特征确定目标群组和非目标群组,所述目标群组为具有所述预设标签的样本聚集的群组,所述非目标群组为所述一个以上群组中除所述目标群组外的其他群组;标签添加模块,用于为所述目标群组中不具有所述预设标签的样本添加所述预设标签;标签删除模块,用于对所述非目标群组中具有所述预设标签的样本删除所述预设标签。第五方面,本说明书实施例提供一种社群划分装置,包括:网络图生成模块,用于根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;节点度计算模块,用于计算所述关系网络图的每个节点的度;访问模块,用于按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;其中,所述访问模块包括:第一判断模块,用于判断当前节点是否已加入任意一个群组;新群组生成模块,用于在当前节点未加入任意一个群组时,生成以当前节点为中心的新群组;扩展节点确定模块,用于根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过N条边相关联的节点,N为正整数;第一加入模块,用于将所述一个以上扩展节点加入所述新群组。第六方面,本说明书实施例提供另一种社群划分装置,包括:网络图生成模块,用于根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;节点度计算模块,用于计算所述关系网络图的每个节点的度;访问模块,用于按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;其中,所述访问模块包括:第一判断模块,用于判断当前节点是否已加入任意一个群组;新群组生成模块,用于在当前节点未加入任意一个群组时,生成以当前节点为中心的新群组;扩展节点确定模块,用于根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过N条边相关联的节点,N为正整数;入群处理模块,用于对每个扩展节点进行入群处理;其中,所述入群处理模块包括:第二判断模块,用于判断所述扩展节点已加入的群组数量是否小于第一预设阈值;第二加入模块,用于在所述扩展节点已加入的群组数量小于所述第一预设阈值时,将所述扩展节点加入所述新群组。第七方面,本说明书实施例提供一种服务器,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述样本标签处理方法和社群划分方法。第八方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现上述样本标签处理方法和社群划分方法。本说明书实施例有益效果如下:本说明书实施例中,根据各个样本之间的关联关系,将部分样本具有预设标签的样本集划分为H个群组,并根据每个群组的群组特征获得具有所述预设标签的样本聚集的目标群组和除所述目标群组外的非目标群组,通过为所述目标群组中不具有所述预设标签的样本添加所述预设标签实现扩散,通过对所述非目标群组中具有所述预设标签的样本删除所述预设标签实现提纯,并通过多次的迭代处理重新实现扩散和提纯,提高样本的准确性和召回率。本说明书实施例提供的样本标签处理方法,通过直接对群组进行定性再对个体定性做调整,所有计算都在群组内,降低了计算的复杂度;每次迭代处理时只需要获得每个群组的群组特征,而不用对每个样本计算更新,因而计算成本非常低;收敛条件易达到,一般进行四至五次迭代处理即可退出。与现有的LPA(LabelPropagationAlgorithm本文档来自技高网...

【技术保护点】
1.一种样本标签处理方法,包括:获取样本集,所述样本集中的部分样本具有预设标签;根据所述样本集中各个样本之间的关联关系,将所述样本集划分为H个群组,H为正整数;对所述H个群组进行L次迭代处理,直至满足收敛条件,并将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签,L为正整数;其中,每次所述迭代处理包括:根据当前每个样本的标签信息确定每个群组的群组特征;根据所述群组特征确定目标群组和非目标群组,所述目标群组为具有所述预设标签的样本聚集的群组,所述非目标群组为所述一个以上群组中除所述目标群组外的其他群组;为所述目标群组中不具有所述预设标签的样本添加所述预设标签;对所述非目标群组中具有所述预设标签的样本删除所述预设标签。

【技术特征摘要】
1.一种样本标签处理方法,包括:获取样本集,所述样本集中的部分样本具有预设标签;根据所述样本集中各个样本之间的关联关系,将所述样本集划分为H个群组,H为正整数;对所述H个群组进行L次迭代处理,直至满足收敛条件,并将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签,L为正整数;其中,每次所述迭代处理包括:根据当前每个样本的标签信息确定每个群组的群组特征;根据所述群组特征确定目标群组和非目标群组,所述目标群组为具有所述预设标签的样本聚集的群组,所述非目标群组为所述一个以上群组中除所述目标群组外的其他群组;为所述目标群组中不具有所述预设标签的样本添加所述预设标签;对所述非目标群组中具有所述预设标签的样本删除所述预设标签。2.根据权利要求1所述的方法,所述根据所述样本集中各个样本之间的关联关系,将所述样本集划分为H个群组,包括:根据所述样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;对所述关系网络图进行社群划分,获得所述H个群组。3.根据权利要求2所述的方法,所述对所述关系网络图进行社群划分,获得所述H个群组,包括:计算所述关系网络图的每个节点的度;按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;其中,所述访问所述关系网络图的每个节点包括:判断当前节点是否已加入任意一个群组;若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过N条边相关联的节点,N为正整数;将所述一个以上扩展节点加入所述新群组。4.根据权利要求2所述的方法,所述对所述关系网络图进行社群划分,获得所述H个群组,包括:计算所述关系网络图的每个节点的度;按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;其中,所述访问所述关系网络图的每个节点包括:判断当前节点是否已加入任意一个群组;若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过N条边相关联的节点,N为正整数;对每个扩展节点进行入群处理;其中,所述入群处理包括:判断所述扩展节点已加入的群组数量是否小于第一预设阈值;若所述扩展节点已加入的群组数量小于所述第一预设阈值,则将所述扩展节点加入所述新群组。5.根据权利要求3或4所述的方法,所述关系网络图为有向图,所述关系网络图的每个节点的度为入度和出度之和,所述N条边依次从所述扩展节点指向当前节点或者从当前节点指向所述扩展节点。6.根据权利要求1所述的方法,所述群组特征包括:群组规模和群组标签浓度;或群组标签浓度;其中,所述群组规模为所述群组特征对应的群组中所有样本的数量,所述群组标签浓度为所述群组特征对应的群组中具有所述预设标签的样本的数量与所有样本的数量之比。7.根据权利要求1所述的方法,所述根据所述群组特征确定目标群组和非目标群组包括:判断每个群组特征是否满足预设条件;若所述群组特征满足所述预设条件,则将所述群组特征对应的群组确定为所述目标群组,否则将所述群组特征对应的群组确定为所述非目标群组。8.根据权利要求1所述的方法,所述收敛条件包括:L达到预设次数;或,满足其中,a为进行当前迭代处理添加的所述预设标签的数量,b为进行当前迭代处理删除的所述预设标签的数量,M为进行当前迭代处理之前每个群组中具有所述预设标签的样本的数量之和,ε为第二预设阈值。9.根据权利要求1所述的方法,H为不小于2的正整数。10.一种社群划分方法,包括:根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;计算所述关系网络图的每个节点的度;按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;其中,所述访问所述关系网络图的每个节点包括:判断当前节点是否已加入任意一个群组;若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过N条边相关联的节点,N为正整数;将所述一个以上扩展节点加入所述新群组。11.一种社群划分方法,包括:根据样本集中各个样本之间的关联关系,生成以单个样本为节点的关系网络图;计算所述关系网络图的每个节点的度;按照节点的度从大到小的顺序依次访问所述关系网络图的每个节点;其中,所述访问所述关系网络图的每个节点包括:判断当前节点是否已加入任意一个群组;若当前节点未加入任意一个群组,则生成以当前节点为中心的新群组;根据当前节点确定一个以上扩展节点,所述扩展节点为与当前节点通过N条边相关联的节点,N为正整数;对每个扩展节点进行入群处理;其中,所述入群处理包括:判断所述扩展节点已加入的群组数量是否小于第一预设阈值;若所述扩展节点已加入的群组数量小于所述第一预设阈值,则将所述扩展节点加入所述新群组。12.一种样本标签处理装置,包括:样本集获取模块,用于获取样本集,所述样本集中的部分样本具有预设标签;样本集划分模块,用于根据所述样本集中各个样本之间的关联关系,将所述样本集划分为H个群组,H为正整数;迭代处理模块,用于对所述H个群组进行L次迭代处理,直至满足收敛条件,并将进行最后一次迭代处理之后每个样本的标签信息作为处理结果,所述每个样本的标签信息对应表征所述每个样本是否具有所述预设标签,L为正整数;其中,所述迭代处理模块包括:特征确定模块,用于根据当前每...

【专利技术属性】
技术研发人员:司书强
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1