【技术实现步骤摘要】
本专利技术属于人工智能,尤其涉及一种基于分层聚类和重采样的数据分类方法及系统、存储介质。
技术介绍
1、在当今金融领域以及众多其他行业中,分类任务占据着至关重要的地位。从信用风险评估、信用卡客户违约预测,到消费者购物行为分析等场景,准确的分类对于决策制定、风险防控以及业务优化都具有关键意义。然而,分类器的性能表现极大程度地受到数据集特性的影响。
2、在实际应用中,金融数据集等特定领域的数据集常常面临两个突出问题:类别不平衡和类间重叠。类别不平衡是指数据集中不同类别的样本数量存在显著差异,通常少数类样本代表着关键的异常情况或重要事件(如金融欺诈、信用违约等),但由于其数量稀少,在训练过程中容易被多数类样本所掩盖,导致分类器难以有效学习到少数类的特征模式,从而在预测时对少数类的识别能力较差。
3、类间重叠则是指不同类别在特征空间中存在部分区域的重合,使得分类器难以准确地划分类别边界。这两种问题相互交织,严重影响了传统分类器的性能,导致分类结果的准确性、召回率等指标不理想,无法满足实际应用中对精准分类的需求。
< ...【技术保护点】
1.一种基于分层聚类和重采样的数据分类方法,其特征在于包括:
2.根据权利要求1所述的一种基于分层聚类和重采样的数据分类方法,其特征在于包括:
3.根据权利要求2所述的一种基于分层聚类和重采样的数据分类方法,其特征在于选择最佳簇数的步骤包括:
4.根据权利要求1所述的一种基于分层聚类和重采样的数据分类方法,其特征在于:所述少数类中的样本70%被分配到训练集,剩余30%被分配到测试集。
5.根据权利要求1所述的一种基于分层聚类和重采样的数据分类方法,其特征在于:r∈[1,2]。
6.根据权利要求1所述的一种基于
...【技术特征摘要】
1.一种基于分层聚类和重采样的数据分类方法,其特征在于包括:
2.根据权利要求1所述的一种基于分层聚类和重采样的数据分类方法,其特征在于包括:
3.根据权利要求2所述的一种基于分层聚类和重采样的数据分类方法,其特征在于选择最佳簇数的步骤包括:
4.根据权利要求1所述的一种基于分层聚类和重采样的数据分类方法,其特征在于:所述少数类中的样本70%被分配到训练集,剩余30%被分配到测试集。
5.根据权利要求1所述的一种基于分层聚类和重采样的数据分类方法,其特征在于:r∈[1,2]。
6.根据权利要求1所述的一种基于分层聚类和重采样的数据分类方法,其特征在于:对训练集中的少数类样本进行过采样或者对多数类样本进行欠采样,从而使得测试集中少数类样本和多数...
【专利技术属性】
技术研发人员:杨悦,A·G·贝诺提,李汶锦,
申请(专利权)人:宁波诺丁汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。