分类器筛选方法、系统、储存介质及计算机设备技术方案

技术编号:26343504 阅读:78 留言:0更新日期:2020-11-13 20:46
本发明专利技术提出了一种分类器筛选方法、系统、储存介质及计算机设备,方法部分包括以下步骤:对数据集进行预处理,将数据集的文本转化为向量化矩阵;根据所述向量化矩阵,获取对应分类问题下分类器AUC的方差表达式;通过运用动态规划项对所述方差表达式进行重构,获取基于动态规划的AUC表达式;根据所述基于动态规划的AUC表达式获取待选分类器的AUC样本估计值,将所述AUC样本估计值最大的待选分类器作为对应分类问题下最优的分类器。

Classifier selection method, system, storage medium and computer equipment

【技术实现步骤摘要】
分类器筛选方法、系统、储存介质及计算机设备
本专利技术涉及机器学习
,更具体地,涉及一种分类器筛选方法、系统、储存介质及计算机设备。
技术介绍
机器学习通常被划分为两种类型:有监督学习和无监督学习。分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中,分类问题的输出不再是连续值,而是离散值,用来指定其属于哪个类别。对概率分类器而言,可以通过设定一个阈值获得对应的离散(二类)分类器:当分类器的输出超过阈值时,输出结果1,否则为0。每个阈值可以在接收机工作特性(ReceiverOperatingCharacteristic,以下简称ROC)平面上产生一个不同的点。从概念上理解,我们可以通过绘制每一个阈值在ROC空间中的对应点来生成一条曲线,这条曲线即为ROC曲线,ROC曲线本质上表示的是在不同判决门限下真阳性率和假阳性率的折衷关系。该曲线下的面积(AreaUndertheCurve,以下简称AUC)可以用来评估一个分类器能否有效地将特定问题中的阳性类样本和阴性类样本区分出来。通过AUC本文档来自技高网...

【技术保护点】
1.一种分类器筛选方法,其特征在于,包括以下步骤:/n对数据集进行预处理,将数据集的文本转化为向量化矩阵;/n根据所述向量化矩阵,获取对应分类问题下分类器AUC的方差表达式;/n通过运用动态规划项对所述方差表达式进行重构,获取基于动态规划的AUC表达式;/n根据所述基于动态规划的AUC表达式获取待选分类器的AUC样本估计值,将所述AUC样本估计值最大的待选分类器作为对应分类问题下最优的分类器。/n

【技术特征摘要】
1.一种分类器筛选方法,其特征在于,包括以下步骤:
对数据集进行预处理,将数据集的文本转化为向量化矩阵;
根据所述向量化矩阵,获取对应分类问题下分类器AUC的方差表达式;
通过运用动态规划项对所述方差表达式进行重构,获取基于动态规划的AUC表达式;
根据所述基于动态规划的AUC表达式获取待选分类器的AUC样本估计值,将所述AUC样本估计值最大的待选分类器作为对应分类问题下最优的分类器。


2.根据权利要求1所述的分类器筛选方法,其特征在于,在二分类问题下,所述基于动态规划的AUC表达式如下:



其中,表示AUC样本估计值;m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;Xi表示所述数据集的正样本序列,Yj表示所述数据集的负样本序列;表示指数函数,当括号中的声明为真时指示函数取值为1,为假时指示函数取值为0;动态规划项S1所满足的范围为ε(X=Y);动态规划项S2所满足的范围为ε(X>Y)。


3.根据权利要求1所述的分类器筛选方法,其特征在于,在二分类问题下,所述动态规划项S1,S2,....S9,S10所对应的满足范围如下:
S1,ε(X=Y);S2,ε(X>Y);S3,ε(X>Y>Y′)orε(X>Y′>Y);S4,ε(X>Y=Y′);S5,ε(X=Y′>Y)orε(X=Y>Y′);S6,ε(X=Y=Y′);S7,ε(X=X′>Y)orε(X'=X>Y);S8,ε(X=X'>Y);S9,ε(X′=X>Y)orε(X>X'=Y);S10,ε(X=X'=Y)。


4.根据权利要求3所述的分类器筛选方法,其特征在于,所述动态规划项的表达式如下:






























m表示所述数据集的正样本个数,n表示所述数据集的负样本个数;Xi表示所述数据集的正样本序列,Yj表示所述数据集的负样本序列,Zk表示Xi与Yj的序列联结,按照非降序进行排列,K...

【专利技术属性】
技术研发人员:陈泽鹏徐维超陈昌润
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1