【技术实现步骤摘要】
基于密度聚类的有监督二分类数据分析方法及系统
本专利技术涉及分类预测
,具体地说是一种基于密度聚类的有监督二分类数据分析方法及系统。
技术介绍
焦虑症是神经症这一大类疾病中最常见的一种,以焦虑情绪体验为主要特征。主要表现为:无明确客观对象的紧张担心,坐立不安,以及植物神经功能失调症状,如心悸、手抖、出汗、尿频等。近年来,随着社会发展进程加快所产生的巨大社会压力,一度影响到了在大学校园这一特殊环境中学习的学生们,使得国内大学生的心理健康问题逐渐成为大家较为关心的社会问题。目前大多数高校都会采用症状自评量表SCL-90进行心理健康测试,虽然积累了海量的心理数据,但是仅仅停留在表面工作上,学校心理咨询中心的老师通过该系统的大学生心理健康量表对学生心理问题进行测试,能对学生心理问题状况进行一个总体的掌握和简单的统计。近几年来,有很多学者尝试利用机器学习中的分类模型通过学生的校园数据对学生的表现进行有监督分类预测,这其中就包括K近邻模型、逻辑回归模型、支持向量机模型、决策树模型、随机森林模型等等,但每个模型都或多或少的存在缺点,如样本不均衡干扰预测结果、容易过拟合等原 ...
【技术保护点】
1.基于密度聚类的有监督二分类数据分析方法,其特征在于用于对生物信息数据进行类别预测,包括:将已知类别的生物信息数据标记为0类和1类,对于每类数据,将数据划分为训练集和测试集;通过DBSCAN算法对每类训练集进行密度聚类,得到对应的初始类簇,并生成基于密度距离的初始训练模型;将整体测试集依次输入上述两类初始训练模型再次进行密度聚类,得到对应的类簇,并生成基于密度距离的训练模型;将每个测试样本依次带入上述两类训练模型,以测试样本对象与类簇的核心对象之间的最小距离为判断准则,将每个测试样本对象划分至相应的类簇,得到测试样本的预测类别。
【技术特征摘要】
1.基于密度聚类的有监督二分类数据分析方法,其特征在于用于对生物信息数据进行类别预测,包括:将已知类别的生物信息数据标记为0类和1类,对于每类数据,将数据划分为训练集和测试集;通过DBSCAN算法对每类训练集进行密度聚类,得到对应的初始类簇,并生成基于密度距离的初始训练模型;将整体测试集依次输入上述两类初始训练模型再次进行密度聚类,得到对应的类簇,并生成基于密度距离的训练模型;将每个测试样本依次带入上述两类训练模型,以测试样本对象与类簇的核心对象之间的最小距离为判断准则,将每个测试样本对象划分至相应的类簇,得到测试样本的预测类别。2.根据权利要求1所述的基于密度聚类的有监督二分类数据分析方法,其特征在于对于每类数据,抽取较大比例的数据作为训练集,剩余的数据作为测试集。3.根据权利要求1或2所述的基于密度聚类的有监督二分类数据分析方法,其特征在于通过DBSCAN算法对每类训练集进行密度聚类,包括:计算每个训练样本与其他训练样本距离,所述距离计算公式为:其中,X和Y均表示训练样本,X=(x1,x2,......xn),Y=(y1,y2,......,yn),xi表示训练样本X中第i个训练样本特征向量值,yj表示训练样本Y中第j个训练样本特征向量值,p表示指数次数,当p=1时,dist(X,Y)表示曼哈顿距离,当p=2时,dist(X,Y)表示欧式距离;基于DPClus算法计算每个训练样本对象的局部密度,局部密度计算公式为:其中,dij表示训练样本对象xi与训练样本对象xj之间的距离,ε表示基于DBSCAN算法对训练样本进行密度聚类时训练样本对象的半径值,χ(dij-ε)函数为0-1函数,当满足dij-ε小于0时,χ(dij-ε)函数值为1,其他情况下χ(dij-ε)函数值为0;通过预设的半径值ε和密度值m计算半径领域,并基于半径领域对训练样本进行密度聚类,训练集中未聚类至对应初始类簇中的训练样本为噪音样本。4.根据权利要求3所述的基于密度聚类的有监督二分类数据分析方法,其特征在于将整体测试集依次输入上述两类初始训练模型再次进行密度聚类,包括:对半径值ε和密度值m进行参数值调整,得到新的半径值ε和密度值m;通过新的半径值ε和密度值m计算新半径领域,并基于新半径领域对整体测试样本和各类训练样本的集合分别进行密度聚类,保留类簇的核心对象,将两类训练集中仍未聚类至对应类簇中的训练样本删除,即删除噪音样本。5.根据权利要求1所述的基于密度聚类的有监督二分类数据分析方法,其特征在于以测试样本对象与类簇的核心对象之间的最小距离为判断准则,将每个测试样本对象划分至相应的类簇,包括:如果测试样本对象到0类类簇的核心对象的最小距离小于等于其半径值ε,到1类簇的核心对象的最小距离大于其半径值ε,所述测试样本对象属于0类簇;如果测试样本对象到1类类簇的核心对象的最小距离小于等于其半径值ε,到0类簇的核心对象的最小距离大于其半径值ε,所述测试样本对象属于1类簇;如果测试样本对象既属于0类又属于1类...
【专利技术属性】
技术研发人员:高茜,马鹏程,张逸群,
申请(专利权)人:齐鲁工业大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。