一种基于基因表达式编程的N中心点分类方法技术

技术编号：11593915 阅读：85 留言：0更新日期：2015-06-11 02:29

一种基于基因表达式编程的N中心点分类方法，包括有：步骤一、将分类训练数据划分为含类标记数据集和不含类标记数据集；步骤二、在不含类标记数据集的多维空间中根据距离公式搜索类中心点；步骤三、在含类标记数据集上评估搜索得到的类中心点的准确性；步骤四、采用基因表达式编程方法表达、搜索和更新得到新的类中心点；步骤五、根据计算未知点与类中心点的距离，对未知点的类型进行分类。步骤六、重复步骤三、步骤四、步骤五，直到目标函数满足停止条件。本发明专利技术属于机器学习技术领域，能降低方法的计算量，同时避免对非平衡数据的敏感性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于基因表达式编程的N中心点分类方法，属于机器学习技术领域。
技术介绍
基于距离的分类方法将每个数据表示为数值向量，为每个类构造一个类中心。分类时，计算待分类数据与每个类中心点的距离，待分类数据的类别即为与之最近的类中心点所表示的类。 k最近邻分类方法是一种常用的基于距离的分类方法。它避免直接构造类中心的困难，通过计算找到k个与待分类数据最接近的数据点，待分类数据的类别即为这k个数据中个数最多的类别。k最近邻方法是普遍采用的一种基于距离的分类方法，但是方法的准确率对k的取值和训练集数据的平衡性较敏感，且每测试一个待分类数据的计算量较大。基因表达式编程具有对数据分布和输入顺序不敏感，能快速进行全局搜索的特性，在数据挖掘和函数优化方面取得了很好的效果。因此，如何采用遗传方法的思想，结合中心点分类方法降低方法的计算量，同时避免对非平衡数据的敏感性，仍是一个未解决的技术问题。
技术实现思路
本专利技术要克服现有技术的上述缺点，提供一种基于基因表达式编程的N中心点分类方法，能降低分类过程的计算量，同时避免对非平衡数据的敏感性。为了达到上述目的，本专利技术提供了一种基于基因表达式编程的N中心点分类方法。包括有：步骤一、将分类训练数据划分为含类标记数据集和不含类标记数据集；步骤二、在不含类标记数据集的多维空间中根据距离公式搜索类中心点；步骤三、在含类标记数据集上评估搜索得到的类中心点的准确性；步骤四、采用基因表达式编程方法表达、搜索和更新得到新的类中心点；步骤五、根据计算未知点与类中心点的距离，对未知点的...

【技术保护点】
一种基于基因表达式编程的N中心点分类方法，其特征在于，包括有：步骤S1、将训练数据集X随机划分为大小相等的含类标记数据集Xl和不含类标记数据集Xu；步骤S2、对一个n类分类问题，从不含类标记数据集Xu中随机选择n个数据点作为初始类中心点CN；步骤S3、计算不含类标记数据集Xu中数据点xi与类中心点cj之间的距离d(xi,cj)，根据距离d(xi,cj)将Xu中的每个数据点指派给最小距离值所对应类中心点cj所代表的类。其中xi表示训练数据集X中的第i个数据点，cj表示n个中心点中的第j个中心点；步骤S4、采用基于基因表达式编程方法的N中心点分类方法表达、搜索和更新类中心点。对基因表达式编程的基因进行必要的选择和变异等遗传操作；步骤S5、根据含类标记数据集Xl中数据点的实际类分布情况，计算目标函数O。步骤S6、重复步骤S3，步骤S4，步骤S5直到目标函数O满足停止条件。

【技术特征摘要】

【专利技术属性】
技术研发人员：李曲，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人