本发明专利技术公开了一种分类器训练方法,所述方法包括以下步骤:获取训练样本,所述训练样本包括多个示例;对所述多个示例进行聚类,获得簇中心集;根据所述簇中心集,获得所述簇中心集的边集;根据所述边集和所述簇中心集构建图结构;利用所述图结构训练获得分类器。本发明专利技术还公开了一种分类器训练装置、设备以及存储介质。由于,在利用训练样本训练获得分类器之前,通过确定训练样本中的多示例的簇中心集,并构建簇中心集的图结构,发掘出训练样本簇中心集中的簇中心间的关系,使得利用图结构训练获得的分类器在进行数据分类时,数据的分类的准确率更高。
【技术实现步骤摘要】
分类器训练方法、装置、设备以及存储介质
本专利技术涉及数据分类
,特别涉及一种分类器训练方法、装置、设备以及存储介质。
技术介绍
随着人工智能的发展,机器学习在人工智能领域占据着的核心地位,其中,多示例学习逐渐成为机器学习领域关注的一个研究热点。在多示例学习中,首先获得训练样本,其中,训练样本包含多个示例,然后将包括多个示例的训练样本输入分类器中进行训练,以获得结果分类器,然后利用获得的结果分类器进行数据分类。但是,用上述方法训练获得的结果分类器对数据进行分类时,数据的分类结果准确率较差。
技术实现思路
本专利技术的主要目的是提供一种分类器训练方法、装置、设备以及存储介质,旨在解决现有技术中数据的分类结果准确率较差的技术问题。为实现上述目的,本专利技术提出一种分类器训练方法,所述方法包括以下步骤:获取训练样本,所述训练样本包括多个示例;对所述多个示例进行聚类,获得簇中心集;根据所述簇中心集,获得所述簇中心集的边集;根据所述边集和所述簇中心集构建图结构;利用所述图结构训练获得分类器。可选的,所述利用所述图结构训练获得分类器的步骤包括:将所述图结构输入图卷积神经网络中进行训练,获得分类器。可选的,所述根据所述簇中心集,获得所述簇中心集的边集的步骤包括:将所述簇中心集中满足预设条件的两个簇中心之间建立一条边,获得所述簇中心集的边集,所述预设条件为所述两个簇中心间的距离小于预设阈值。可选的,所述将所述图结构输入图卷积神经网络中进行训练,以获得分类器的步骤包括:根据所述边集,建立邻接矩阵;将所述簇中心集和所述邻接矩阵输入图卷积神经网络进行训练,获得所述簇中心集中各簇中心的重要度分数值;将所述簇中心集中各簇中心按照所述重要度分数值从高到低进行排序,并获取重要度分数值排序前K的K个簇中心以及所述K个簇中心的子边集,K为不大于所述簇中心集中的簇中心数量的正整数;根据所述K个簇中心以及所述子边集,对所述邻接矩阵和所述簇中心集进行更新,以获得更新后的图结构;判断所述重要度分数值的维度是否等于预设类别数量;若是,对所述更新后的图结构进行一次性融合,获得分类器。可选的,所述判断所述重要度分数值的维度是否等于预设类别数量的步骤之后,所述方法还包括:若否,则返回执行将所述簇中心集和所述邻接矩阵输入图卷积神经网络进行训练,获得所述簇中心集中各簇中心的重要度分数值的步骤,循环至所述重要度分数值的维度等于预设类别数量。可选的,所述根据所述边集,建立邻接矩阵的步骤包括:所述根据所述边集和公式一,建立邻接矩阵;所述公式一为:其中,Aij为所述邻接矩阵;via,vib分别为所述簇中心任意2个簇中心,a≠b,Ei所述边集。可选的,所述若是,对所述更新后的图结构进行一次性融合,获得分类器的步骤包括;若是,利用全局最大池化与全局平均池化的拼接方式,对所述更新后的图结构进行一次性融合,获得分类器。此外,为实现上述目的,本专利技术还提供了一种分类器训练装置,所述装置包括:获取模块,用于获取训练样本,所述训练样本包括多个示例;聚类模块,用于对所述多个示例进行聚类,获得簇中心集;边集获得模块,用于根据所述簇中心集,获得所述簇中心集的边集;构建模块,用于根据所述边集和所述簇中心集构建图结构;分类器获得模块,用于利用所述图结构训练获得分类器。此外,为实现上述目的,本专利技术还提供了一种分类器训练设备,,所述分类器训练设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述任一项所述的分类器训练方法的步骤。此外,为实现上述目的,本专利技术还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的分类器训练方法的步骤本专利技术技术方案通过采用一种分类器训练方法,所述方法包括:获取训练样本,所述训练样本包括多个示例;对所述多个示例进行聚类,获得簇中心集;根据所述簇中心集,获得所述簇中心集的边集;根据所述边集和所述簇中心集构建图结构;利用所述图结构训练获得分类器。由于,在利用训练样本训练获得分类器之前,通过确定训练样本中的多示例的簇中心集,并构建簇中心集的图结构,发掘出训练样本簇中心集中的簇中心间的关系,使得利用图结构训练获得的分类器在进行数据分类时,数据的分类的准确率更高。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的分类器训练设备结构示意图;图2为本专利技术分类器训练方法第一实施例的流程示意图;图3为本专利技术的全局最大池化与全局平均池化拼接过程示意图;图4为本专利技术分类器训练装置第一实施例的结构框图。图5为本专利技术分类器与其他算法对应的分类器的执行效率对比图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。随着人工智能的发展,机器学习占据着人工智能的核心地位,也是目前计算机研究领域的热点之一。与此同时,多示例学习逐渐成为机器学习领域关注的一个研究热点。它有别于传统的有监督学习、无监督学习和半监督学习方法,被认为是一种新的学习框架。在多示例学习中,训练集由许多包组成,每个包中包含许多示例。如果一个包中至少包含一个正示例,则该包被标记为正包;否则,它被标记为负包。多示例学习的任务则是从训练中学习一些概念,用以正确标记未知的包。令X=Rd表示示例空间,我们定义D={(X1,y1),...,(Xi,yi),...,(Xm,ym)}表示具有m个包的MIL数据集,其中被称为一个包,即本专利技术中的一个训练样本的特征向量,yi∈Y={0,1}是Xi所属的标记;xij∈X是一个由d维特征向量表示的示例,即xij=[xij1,...,xijl,...,xijd]′;pi表示Xi中示例个数的总数。如果存在index∈{1,...,j,...,pi},使得xi,index是一个正示例,则Xi是正包且yi=1;否则Xi是负包且yi=0。在传统的多示例学习中,一般集中于非图结构的多示例学习算法研究。非图结构的多示例学习算法通常忽略了示例间的相关性,并且不能更好地表示示例间的逻辑关系。虽然,近年来已有专家学者利用图结构方法或聚类方法挖掘示例间的关系,使其可以提高模型分类的准确率。但是,由于包中选择代表示例的好坏直接影响模型分类的准确率,因此已有的基于图结构的多示例学习方法未充分考虑包中的示例选择问题;同时,基于包图结构建立分类器对模型的执行效率有直接的影响,目前已有的方法都是先通过对包图进行相似性匹配再利用诸如支持向量机SVM、神经网络等方法进行分类器的构建,其中,基于支持向量机SVM的多示例学习方法,虽然具有较好本文档来自技高网...
【技术保护点】
1.一种分类器训练方法,其特征在于,所述方法包括以下步骤:/n获取训练样本,所述训练样本包括多个示例;/n对所述多个示例进行聚类,获得簇中心集;/n根据所述簇中心集,获得所述簇中心集的边集;/n根据所述边集和所述簇中心集构建图结构;/n利用所述图结构训练获得分类器。/n
【技术特征摘要】
1.一种分类器训练方法,其特征在于,所述方法包括以下步骤:
获取训练样本,所述训练样本包括多个示例;
对所述多个示例进行聚类,获得簇中心集;
根据所述簇中心集,获得所述簇中心集的边集;
根据所述边集和所述簇中心集构建图结构;
利用所述图结构训练获得分类器。
2.如权利要求1所述的分类器训练方法,其特征在于,所述利用所述图结构训练获得分类器的步骤包括:
将所述图结构输入图卷积神经网络中进行训练,获得分类器。
3.如权利要求2所述的的分类器训练方法,其特征在于,所述根据所述簇中心集,获得所述簇中心集的边集的步骤包括:
将所述簇中心集中满足预设条件的两个簇中心之间建立一条边,获得所述簇中心集的边集,所述预设条件为所述两个簇中心间的距离小于预设阈值。
4.如权利要2所述的分类器训练方法,其特征在于,所述将所述图结构输入图卷积神经网络中进行训练,获得分类器的步骤包括:
根据所述边集,建立邻接矩阵;
将所述簇中心集和所述邻接矩阵输入图卷积神经网络进行训练,获得所述簇中心集中各簇中心的重要度分数值;
将所述簇中心集中各簇中心按照所述重要度分数值从高到低进行排序,并获取重要度分数值排序前K的K个簇中心以及所述K个簇中心的子边集,K为不大于所述簇中心集中的簇中心数量的正整数;
根据所述K个簇中心以及所述子边集,对所述邻接矩阵和所述簇中心集进行更新,以获得更新后的图结构;
判断所述重要度分数值的维度是否等于预设类别数量;
若是,对所述更新后的图结构进行一次性融合,获得分类器。
5.如权利要求4所述的分类器训练方法,其特征在于,所述判断所述重要度分数值的维度是否等于预设类别数量的步骤之后,所述...
【专利技术属性】
技术研发人员:孙翀,毕建权,王江晴,李子茂,帖军,田莎莎,何开杰,
申请(专利权)人:中南民族大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。