对象分群方法、模型训练方法及装置制造方法及图纸

技术编号:15691518 阅读:239 留言:0更新日期:2017-06-24 04:47
本申请实施例公开了对象分群方法、模型训练方法及装置,以解决现有技术中的群划分过程中因存在人为干预的因素,而影响最终群划分的准确性的问题。所述对象分群方法包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的第一核心对象;确定在预设半径的邻域内的对象数量不小于预设数值的、且处于所述第一核心对象的预设半径的领域内的第二核心对象;将所述第一核心对象和所述第二核心对象归属于同一个对象群。

Object grouping method, model training method and device

The embodiment of the invention discloses a method and a device for training object clustering method and model to solve the existing technology in the classification process due to factors of human intervention, and affect the final accuracy of classification problems. Including the object clustering method: according to the preset characteristic corresponding with each object sets the object to be clustering in the value of Euclidean distance between any set in the object of two objects; the set of objects in the object according to the Euclidean distance distribution in three-dimensional space; the set of objects based on the distribution of objects in the three-dimensional space, first determine the number of objects in the neighborhood of the core object within a predetermined radius is not less than the preset value; the preset radius to determine the number of objects in the neighborhood within a predetermined radius is not less than the preset value, and is the first core object within the field of the second core the object; the first object and the second core objects belonging to the same object group.

【技术实现步骤摘要】
对象分群方法、模型训练方法及装置
本申请涉及计算机技术,特别涉及一种对象分群方法、模型训练方法及装置。
技术介绍
目前,机器学习(MachineLearning,ML)应用于人工智能的各个领域。例如:通过提取用户的信用数据来进行机器学习,得到信用评分模型。以信用评分的应用为例,一般是将所有用户的信用数据来进行机器学习,得到一个统一的信用评分模型,并在这个统一的信用评分模型中完成所有用户的信用评估。实践证明,由于用户群中存在不同的群体特性或人群分布,上述统一的信用评分模型往往很难达到令人满意的信用评估效果。故,合理地对用户群进行人群划分,并根据不同人群分别建立信用评估模型,已成为当前信用评估过程的重要环节。现有技术中,一般可以利用监督学习(SupervisedLearning)或半监督学习(Semi-SupervisedLearning,SSL)来实现上述群划分,例如:逻辑回归(LogisticRegression)。其中,在监督学习或半监督学习中,一般需要预先对群划分进行人为定义(如:预先确定群聚类的个数)。可见,在现有技术中,由于在监督学习或半监督学习的过程中,一般需要预先对群划分进行人为定义,使得群划分过程中因存在人为干预的因素,而影响最终群划分的准确性。
技术实现思路
本申请实施例的目的是提供一种对象分群方法、模型训练方法及装置,以解决现有技术中的群划分过程中因存在人为干预的因素,而影响最终群划分的准确性的问题。为解决上述技术问题,本申请实施例提供的对象分群方法、模型训练方法及装置是这样实现的:一种对象分群方法,包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的第一核心对象;确定在预设半径的邻域内的对象数量不小于预设数值的、且处于所述第一核心对象的预设半径的领域内的第二核心对象;将所述第一核心对象和所述第二核心对象归属于同一个对象群。一种对象分群方法,包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的核心对象,得到由核心对象组成的核心对象集合;若所述核心对象集合中的第一核心对象处于第二核心对象的预设半径的领域内,将所述第一核心对象和所述第二核心对象归属于同一个对象群。一种模型训练方法,包括:利用上述对象分群方法将待分群的对象集合中的对象进行分群;以及根据预先确定的与分群得到的各个对象群对应的待选取特征,提取与各个对象群中包含的对象对应的所述待选取特征;利用提取的各个对象群中包含的对象的所述待选取特征进行模型训练,得到与各个对象群对应的模型。一种对象分群装置,包括:第一确定单元,用于根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;分布单元,用于将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;第二确定单元,用于基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的第一核心对象;第三确定单元,用于确定在预设半径的邻域内的对象数量不小于预设数值的、且处于所述第一核心对象的预设半径的领域内的第二核心对象;分群单元,用于将所述第一核心对象和所述第二核心对象归属于同一个对象群。一种对象分群装置,包括:第一确定单元,用于根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;分布单元,用于将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;核心对象确定单元,用于基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的核心对象,得到由核心对象组成的核心对象集合;分群单元,用于在所述核心对象集合中的第一核心对象处于第二核心对象的预设半径的领域内时,将所述第一核心对象和所述第二核心对象归属于同一个对象群。一种模型训练装置,包括:上述对象分群装置;以及训练特征提取单元,用于根据预先确定的与分群得到的各个对象群对应的待选取特征,提取与各个对象群中包含的对象对应的所述待选取特征;模型训练单元,用于利用提取的各个对象群中包含的对象的所述待选取特征进行模型训练,得到与各个对象群对应的模型。由以上本申请各实施例提供的技术方案可见,通过将待分群的对象集合中的各个对象按照预先确定的欧式距离在三维空间内进行分布,此后基于上述分布,在某个对象的预设半径的领域内的对象数量(即在预设半径的领域内的对象浓度)不小于预设数值时,将该对象确定为第一核心对象;随后,继续基于上述分布,在上述第一核心对象的预设半径的领域内,确定在预设半径的邻域内的对象数量(即在预设半径的领域内的对象浓度)不小于预设数值的第二核心对象;最终,将确定的上述第一核心对象和第二核心对象归属于同一个对象群中。通过重复上述过程,可以实现上述待分群的对象集合中的对象的群划分。在上述过程中,由于并不需要预先对群划分进行人为定义,从而避免群划分过程受到过多人为干预因素的影响,提升群划分的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的对象分群方法的流程图;图2为待分群的对象集合中的各对象在三维空间内的分布示意图;图3为分群得到的各对象群在三维空间内的分布示意图;图4为本申请另一实施例提供的对象分群方法的流程图;图5为本申请一实施例提供的模型训练方法的流程图;图6为本申请一实施例提供的对象分群装置的模块示意图;图7为本申请另一实施例提供的对象分群装置的模块示意图;图8为本申请一实施例提供的模型训练装置的模块示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。为解决现有技术的群划分过程中的问题,本申请提供一种基于密度的空间聚类算法(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)来实现群划分。本文将以信用评分的场景为例对本技术方案进行叙述。图1为本申请一实施例提供的对象分群方法的流程,包括:S101:根据与待分群的对象集合Q1中的各个对象对应的预设特征值,确定所述对象集合Q1中的任意两个对象之间的欧式距离。在信用评分的场景中,上述对象集合Q1可以是待分群的用本文档来自技高网
...
对象分群方法、模型训练方法及装置

【技术保护点】
一种对象分群方法,其特征在于,包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的第一核心对象;确定在预设半径的邻域内的对象数量不小于预设数值的、且处于所述第一核心对象的预设半径的领域内的第二核心对象;将所述第一核心对象和所述第二核心对象归属于同一个对象群。

【技术特征摘要】
1.一种对象分群方法,其特征在于,包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的第一核心对象;确定在预设半径的邻域内的对象数量不小于预设数值的、且处于所述第一核心对象的预设半径的领域内的第二核心对象;将所述第一核心对象和所述第二核心对象归属于同一个对象群。2.根据权利要求1所述的方法,其特征在于,将所述第一核心对象和所述第二核心对象归属于同一个对象群之后,还包括:将所述对象集合中未归属于任何一个对象群的对象确定为离群对象;确定与所述离群对象距离最近的最近对象群;将所述离群对象归属于所述最近对象群。3.根据权利要求1所述的方法,其特征在于,确定所述第二核心对象,包括:确定在预设半径的邻域内的对象数量不小于预设数值的、且从所述第一核心对象直接密度可达或密度可达的第二核心对象。4.根据权利要求1所述的方法,其特征在于,确定所述第一核心对象之后,还包括:判断所述第一核心对象是否可以归属于已经存在的任何一个对象群;若否,则新建一个对象群并将该第一核心对象归属于该新建的对象群。5.根据权利要求1所述的方法,其特征在于,根据所述预设特征值确定所述欧式距离之前,还包括:提取与待分群的对象集合中的各个对象对应的至少一个预设特征数据;对提取的所述预设特征数据进行归一化处理,得到预设特征值。6.一种对象分群方法,其特征在于,包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的核心对象,得到由核心对象组成的核心对象集合;若所述核心对象集合中的第一核心对象处于第二核心对象的预设半径的领域内,将所述第一核心对象和所述第二核心对象归属于同一个对象群。7.根据权利要求6所述的方法,其特征在于,将所述第一核心对象和所述第二核心对象归属于同一个对象群之后,还包括:将所述对象集合中的不是核心对象的对象确定为离群对象;确定与所述离群对象距离最近的最近对象群;将所述离群对象归属于所述最近对象群。8.根据权利要求6所述的方法,其特征在于,若所述核心对象集合中的第一核心对象处于第二核心对象的预设半径的领域内,将所述第一核心对象和所述第二核心对象归属于同一个对象群,包括:若所述核心对象集合中的第一核心对象从所述第二核心对象直接密度可达或密度可达,将所述第一核心对象和所述第二核心对象归属于同一个对象群。9.一种模型训练方法,其特征在于,包括:利用所述权利要求1-8中任意一项所述的对象分群方法将待分群的对象集合中的对象进行分群;根据预先确定的与分群得到的各个对象群对应的待选取特征,提取与各个对象群中包含的对象对应的所述待选取特征;利用提取的各个对象群中包含的对象的所述待选取特征进行模型训练,得到与各个对象群对应的模型。10.一种对象分群装置,其特征在于,包括:第一确定单元,用于根据与待分群的对象集合中的各个对象对应的...

【专利技术属性】
技术研发人员:席炎王晓光隋宛辰漆远张柯姜晓燕王少萌俞吴杰施兴
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1