一种基于高斯模糊积分的HBV分类方法技术

技术编号:12161628 阅读:87 留言:0更新日期:2015-10-06 10:36
本发明专利技术公开了一种基于高斯模糊积分的HBV分类方法,包括下述步骤:S1、从HBV数据库中筛选HBV患者的DNA序列;S2、数据库根据聚类方法分为四个小的数据集合B1、C1、C2以及C3;S3、对数据集进行分类,依靠分类器的分类和病例的真实类别;S4、将高斯模糊积分构造的分类器应用于HBV数据库,对HBV进行分类。本发明专利技术基于高斯分布的模糊积分,通过高斯函数表示被积函数来完成模糊积分的投影,然后再根据投影得到的虚拟积分值进行线性分类,提高HBV分类精度,简化了HBV分类过程。

【技术实现步骤摘要】

本专利技术设及分类预测的研究领域,特别设及一种基于高斯模糊积分的皿V分类方 法。
技术介绍
目前,现实应用中很多问题设及到分类预测,研究者已经从最初的线性分类器扩 展到了非线性分类器的使用。传统的模糊积分就是一种用于处理非线性问题的信息融合工 具。而模糊积分自身也存在着极大的局限性,比如经典模糊测度的表示仅限于区间, W及传统模糊积分所能处理的数据只能根据被积函数沿直线投影来获得积分值,而实际的 数据分布并不是单纯线性的。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于高斯模糊积分 的皿V分类方法。 本专利技术的目的通过W下的技术方案实现: -种基于高斯模糊积分的皿V分类方法,包括下述步骤:S1、从皿V数据库中筛选皿V患者的DNA序列; S2、数据库根据聚类方法分为四个小的数据集合B1、C1、C2 W及C3 ; S3、对数据集进行分类,依靠分类器的分类和病例的真实类别,可W有四种结果用 于预测评价; 真正类---患者诊断为患病,而真有病的情况; 假正类---患者诊断为患病,而未患病的情况; 真负类---患者诊断为无病,而真无病的情况; 假负类---患者诊断为无病,而真有病的情况;[001引令TP,化TN和FN分别表示真正类、假正类、真负类和假负类的数目,对于每个学 习和评价实验,Accuracy准确度、Sensitivity敏感度和Specificity特异性定义如下,用 作分类的性能或适应度的指示器; Accura巧=(TP+TN)/^(TP+TN+FP+FN),Sensitivity = TP/(TP+FN), Specificity=TN/(TN+FP). S4、将高斯模糊积分构造的分类器应用于皿V数据库,对皿V进行分类,所述高斯 模糊积分构造的分类器具体为:[001引假设给定特征集X = {Xi, X2,…,X。},f为特征函数,相应的特征值为 f (Xi),f (X2),…,f (X。),将特征值进行降序排列满足f (V )《f咕')《f (X。'),其中 (x/,又2',…,X。')是(X。X2,…,X。)的变开多; 将被积函数扩展为高斯形式,并基于此构建扩展模糊积分分类器,基于高斯函数 的模糊积分定义如下: 通过投影所有待分类数据会在L轴求得一个高斯模糊积分值,此时可采用一个线 性分类方法将该些虚拟值进行分类,在一次投影后并不一定能够正确分类所有数据,通过 不断学习得到一组优化的模糊测度值,来对虚拟点在L上的分布进行调节,直至获得满意 分类结果。 优选的,步骤S2中,分子进化分析由生物信息分析软件MEGA 3.0实现完成,并同 步采用进化树完成了皿V的同质性聚类,特征提取采用基于信息滴排序的方法,基因特征 按照信息增益进行排序,选取最前位的特征作为用于分类器的潜力特征,并经多次验证实 验,取前5位基因结果最优。 优选的,步骤S3中,使用简单的整数值0, 1,2和3作为数字化的初始值,W分别表 示特征的离散值。 优选的,步骤S4中,所述的模糊测度值通过遗传算法进行优化学习,该步骤中描 述的n个基因特征对应的一组模糊测度包含2D-1个值,遗传算法中需要由一组具有2"-1个 基因的染色体表示,通过变异、交叉和复制运算因子,经过多代的进化学习,最终遗传算法 的适应函数满足停止条件,此时获得的染色体中每个基因位对应的值即为模糊测度值。 本专利技术与现有技术相比,具有如下优点和有益效果:1、本专利技术基于高斯分布的模糊积分,通过高斯函数表示被积函数来完成模糊积分 的投影,然后再根据投影得到的虚拟积分值进行线性分类,提高皿V分类精度,简化了皿V 分类过程。 2、本专利技术采用的高斯模糊积分呈现最高的测试敏感度,对于疾病确诊和研究具有 积极的辅助作用。【附图说明】 图1是本专利技术基于高斯模糊积分的皿V分类方法的流程图; 图2(a)是本专利技术一种取值情况下的高斯函数的投影图; 图2(b)是本专利技术另一种取值情况下的高斯函数的投影图。【具体实施方式】 下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限 于此。实施例 如图1所示,本实施例基于高斯模糊积分的皿V分类方法,包括下述步骤: S1、从皿V数据库中筛选皿V患者的DNA序列;皿V数据库是来自香港威尔±医院 的实例,包含98个非患病者和100个阳性患病者。 S2、皿V患者的DNA序列由生物专家精屯、挑选,尽量使统计偏差最小。数据库可W 根据聚类方法分为四个小的数据集合B1、C1、C2 W及C3,每个子库的病人如表1所示;表1皿V数据集描述 S3、对数据集进行分类,依靠分类器的分类和病例的真实类别,可W有四种结果用 于预测评价; 真正类---患者诊断为患病,而真有病的情况; 假正类---患者诊断为患病,而未患病的情况; 真负类---患者诊断为无病,而真无病的情况; 假负类---患者诊断为无病,而真有病的情况;[004引令TP,化TN和FN分别表示真正类、假正类、真负类和假负类的数目,对于每个学 习和评价实验,Accuracy准确度、Sensitivity敏感度和Specificity特异性定义如下,用 作分类的性能或适应度的指示器;Accura巧=(TP+TN)/^(TP+TN+FP+FN), Sensitivity = TP/(TP+FN), Specificity = TN/(TN+FP). 医药专家通常更倾向于较高的敏感度,即低准确度和特异性是可接受的平衡状 态,只要准确度和特异性是合理的。该意味着我们宁愿让更多的人确诊为患病,而不要错 过那些真正患病的人。在该些数据库中,所有特征是分类型特征。每个特征有四个符号型 的值A,C,G和T。为了使用非线性模型,我们使用简单的整数值0, 1,2和3作为数字化的初 始值,W分别表示特征的离散值。 S4、将高斯模糊积分(Gaussian-FI)构造的分类器应用于皿V数据库,并和之前研 究中的结果进行比较,如表2所示,包含多个经典算法的测试结果,包括神经网络(NN)、决 策树值T)、贝叶斯(NB),支撑向量机(SVM) W及传统模糊积分(FI),我们用多个数据库的平 均值来衡量性能,最好的值用黑体突出显示。表中可见,SVM虽具有最好的分类精度,敏感 性却相对较差。对于筛查测试,医药专家通常喜欢更高的敏感度,即较低的精度和特异性对 于高敏感度处于一个合理的可接受的平衡状态。我们宁愿让更多的人接受确诊测试,而不 要错过任何一个真正的癌症患者。高斯模糊积分呈现最高的测试敏感度,对于疾病确诊和 研究具有积极的辅助作用。 上述高斯模糊积分的分类方法具体为:[004引假设给定特征集X = {X。X2,…,X。},f为特征函数,相应的特征值为 f (Xi),f (X2),…,f (X。),本实施例将特征值进行降序排列满足f (Xi')《f咕')《… 《f (X。'),其当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于高斯模糊积分的HBV分类方法,其特征在于,包括下述步骤:S1、从HBV数据库中筛选HBV患者的DNA序列;S2、数据库根据聚类方法分为四个小的数据集合B1、C1、C2以及C3;S3、对数据集进行分类,依靠分类器的分类和病例的真实类别,可以有四种结果用于预测评价;真正类‑‑‑患者诊断为患病,而真有病的情况;假正类‑‑‑患者诊断为患病,而未患病的情况;真负类‑‑‑患者诊断为无病,而真无病的情况;假负类‑‑‑患者诊断为无病,而真有病的情况;令TP,FP,TN和FN分别表示真正类、假正类、真负类和假负类的数目,对于每个学习和评价实验,Accuracy准确度、Sensitivity敏感度和Specificity特异性定义如下,用作分类的性能或适应度的指示器;Accuracy=(TP+TN)/(TP+TN+FP+FN),Sensitivity=TP/(TP+FN),Specificity=TN/(TN+FP),S4、将高斯模糊积分构造的分类器应用于HBV数据库,对HBV进行分类,所述高斯模糊积分构造的分类器具体为:假设给定特征集X={x1,x2,…,xn},f为特征函数,相应的特征值为f(x1),f(x2),…,f(xn),将特征值进行降序排列满足f(x1')≤f(x2')≤…≤f(xn'),其中(x1',x2',…,xn')是(x1,x2,…,xn)的变形;将被积函数扩展为高斯形式,并基于此构建扩展模糊积分分类器,基于高斯函数的模糊积分定义如下:∫e-(f(x)-b)22c2dμ=Σi=1n[e-(f′(xi)-b)22c2-e-(f′(xi-1)-b)22c2]μ({x′i,x′i+1,...,x′n});]]>通过投影所有待分类数据会在L轴求得一个高斯模糊积分值,此时可采用一个线性分类方法将这些虚拟值进行分类,在一次投影后并不一定能够正确分类所有数据,通过不断学习得到一组优化的模糊测度值,来对虚拟点在L上的分布进行调节,直至获得满意分类结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王金凤王文中田绪红
申请(专利权)人:华南农业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1