The embodiment of the invention discloses a method and a device for training object clustering method and model to solve the existing technology in the classification process due to factors of human intervention, and affect the final accuracy of classification problems. Including the object clustering method: according to the preset characteristic corresponding with each object sets the object to be clustering in the value of Euclidean distance between any set in the object of two objects; the set of objects in the object according to the Euclidean distance distribution in three-dimensional space; the set of objects based on the distribution of objects in the three-dimensional space, first determine the number of objects in the neighborhood of the core object within a predetermined radius is not less than the preset value; the preset radius to determine the number of objects in the neighborhood within a predetermined radius is not less than the preset value, and is the first core object within the field of the second core the object; the first object and the second core objects belonging to the same object group.
【技术实现步骤摘要】
对象分群方法、模型训练方法及装置
本申请涉及计算机技术,特别涉及一种对象分群方法、模型训练方法及装置。
技术介绍
目前,机器学习(MachineLearning,ML)应用于人工智能的各个领域。例如:通过提取用户的信用数据来进行机器学习,得到信用评分模型。以信用评分的应用为例,一般是将所有用户的信用数据来进行机器学习,得到一个统一的信用评分模型,并在这个统一的信用评分模型中完成所有用户的信用评估。实践证明,由于用户群中存在不同的群体特性或人群分布,上述统一的信用评分模型往往很难达到令人满意的信用评估效果。故,合理地对用户群进行人群划分,并根据不同人群分别建立信用评估模型,已成为当前信用评估过程的重要环节。现有技术中,一般可以利用监督学习(SupervisedLearning)或半监督学习(Semi-SupervisedLearning,SSL)来实现上述群划分,例如:逻辑回归(LogisticRegression)。其中,在监督学习或半监督学习中,一般需要预先对群划分进行人为定义(如:预先确定群聚类的个数)。可见,在现有技术中,由于在监督学习或半监督学习的过程中,一般需要预先对群划分进行人为定义,使得群划分过程中因存在人为干预的因素,而影响最终群划分的准确性。
技术实现思路
本申请实施例的目的是提供一种对象分群方法、模型训练方法及装置,以解决现有技术中的群划分过程中因存在人为干预的因素,而影响最终群划分的准确性的问题。为解决上述技术问题,本申请实施例提供的对象分群方法、模型训练方法及装置是这样实现的:一种对象分群方法,包括:根据与待分群的对象集合中的各个对象对 ...
【技术保护点】
一种对象分群方法,其特征在于,包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的第一核心对象;确定在预设半径的邻域内的对象数量不小于预设数值的、且处于所述第一核心对象的预设半径的领域内的第二核心对象;将所述第一核心对象和所述第二核心对象归属于同一个对象群。
【技术特征摘要】
1.一种对象分群方法,其特征在于,包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的第一核心对象;确定在预设半径的邻域内的对象数量不小于预设数值的、且处于所述第一核心对象的预设半径的领域内的第二核心对象;将所述第一核心对象和所述第二核心对象归属于同一个对象群。2.根据权利要求1所述的方法,其特征在于,将所述第一核心对象和所述第二核心对象归属于同一个对象群之后,还包括:将所述对象集合中未归属于任何一个对象群的对象确定为离群对象;确定与所述离群对象距离最近的最近对象群;将所述离群对象归属于所述最近对象群。3.根据权利要求1所述的方法,其特征在于,确定所述第二核心对象,包括:确定在预设半径的邻域内的对象数量不小于预设数值的、且从所述第一核心对象直接密度可达或密度可达的第二核心对象。4.根据权利要求1所述的方法,其特征在于,确定所述第一核心对象之后,还包括:判断所述第一核心对象是否可以归属于已经存在的任何一个对象群;若否,则新建一个对象群并将该第一核心对象归属于该新建的对象群。5.根据权利要求1所述的方法,其特征在于,根据所述预设特征值确定所述欧式距离之前,还包括:提取与待分群的对象集合中的各个对象对应的至少一个预设特征数据;对提取的所述预设特征数据进行归一化处理,得到预设特征值。6.一种对象分群方法,其特征在于,包括:根据与待分群的对象集合中的各个对象对应的预设特征值,确定所述对象集合中的任意两个对象之间的欧式距离;将所述对象集合中的对象按照所述欧式距离在三维空间内进行分布;基于所述对象集合中的对象在所述三维空间内的分布,确定在预设半径的邻域内的对象数量不小于预设数值的核心对象,得到由核心对象组成的核心对象集合;若所述核心对象集合中的第一核心对象处于第二核心对象的预设半径的领域内,将所述第一核心对象和所述第二核心对象归属于同一个对象群。7.根据权利要求6所述的方法,其特征在于,将所述第一核心对象和所述第二核心对象归属于同一个对象群之后,还包括:将所述对象集合中的不是核心对象的对象确定为离群对象;确定与所述离群对象距离最近的最近对象群;将所述离群对象归属于所述最近对象群。8.根据权利要求6所述的方法,其特征在于,若所述核心对象集合中的第一核心对象处于第二核心对象的预设半径的领域内,将所述第一核心对象和所述第二核心对象归属于同一个对象群,包括:若所述核心对象集合中的第一核心对象从所述第二核心对象直接密度可达或密度可达,将所述第一核心对象和所述第二核心对象归属于同一个对象群。9.一种模型训练方法,其特征在于,包括:利用所述权利要求1-8中任意一项所述的对象分群方法将待分群的对象集合中的对象进行分群;根据预先确定的与分群得到的各个对象群对应的待选取特征,提取与各个对象群中包含的对象对应的所述待选取特征;利用提取的各个对象群中包含的对象的所述待选取特征进行模型训练,得到与各个对象群对应的模型。10.一种对象分群装置,其特征在于,包括:第一确定单元,用于根据与待分群的对象集合中的各个对象对应的...
【专利技术属性】
技术研发人员:席炎,王晓光,隋宛辰,漆远,张柯,姜晓燕,王少萌,俞吴杰,施兴,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。