一种与银屑病相关的分类模型的构建方法技术

技术编号:16472261 阅读:29 留言:0更新日期:2017-10-28 23:58
本发明专利技术涉及医学检测技术领域,具体涉及一种与银屑病相关的分类模型的构建方法,包括以下步骤:(1)选取银屑病易感位点;(2)根据不同类型的易感位点,转化为输入数据;(3)利用Adaboost‑SVM模型进行数据的分类。目前的缺乏相关的技术来对银屑病数据进行分类和预测,只停留在判断位点有无来推断患病情况。本发明专利技术利用有效的机器学习分类器SVM进行分类,并通过了adaboost框架来集成SVM,提高分类器的准确性。该模型可以整合SNP、氨基酸和型别数据进行分类,综合考虑各个维度的信息,提高了数据了分类结果的准确性。

A method for constructing a classification model related to psoriasis

The invention relates to the technical field of medical detection, in particular relates to a method for constructing the classification model associated with psoriasis, which comprises the following steps: (1) selection of psoriasis susceptibility loci; (2) according to the different types of susceptible loci, transformed into the input data; (3) data classification using Adaboost SVM model. At present, the lack of related technology to classify and predict the psoriasis data, only stay in the judgment site whether or not to infer the prevalence. The invention uses effective machine learning classifier SVM to classify, and integrates the SVM through the AdaBoost framework, so as to improve the accuracy of the classifier. The model can integrate SNP, amino acid and type data to classify, and comprehensively consider the information of each dimension, which improves the accuracy of the classification results.

【技术实现步骤摘要】
一种与银屑病相关的分类模型的构建方法
本专利技术涉及医学检测
,具体涉及一种与银屑病相关的分类模型的构建方法。
技术介绍
银屑病又称牛皮癣是一种常见的复杂疾病,有报道银屑病的发生与遗传因素相关,尤其是人类白细胞抗原区域(HLA),但真正相关的位点并未可知。随着测序技术的发展和基因组研究的深入,在去年《自然遗传》上就有报道中国人MHC区域的高深度测序和精准变异检测,在其基因组关联分析中定位了数个银屑病的易感位点。但是目前尚缺乏基于HLA区域的易感位点的分类和预测模型。所以急需开发相关的分类预测工具利用HLA区域易感位点对数据进行分类预测。银屑病与HLA最显著相关,但目前的技术缺乏对HLA区域针对性的运用。近期HLA区域进行精准变异检测得到突破,精准的定位了HLA上与银屑病相关的易感位点。本专利技术针对这些易感位点对其进行编码和再用机器学习模型Adaboost进行分类,可以整合利用HLA区域找到的易感位点信息。利用机器学习模型对数据进行综合分析,提高分类准确性,为银屑病的预防筛查提供依据。
技术实现思路
本专利技术的目的是解决上述现有技术的不足,基于对MHC区域的全覆盖找到与银屑病相关的生物标记,基于HLA区域独立相关的易感位点,利用SVM-Adaboost构建银屑病的分类模型,提供一种与银屑病相关的分类模型的构建方法,为银屑病的预防筛查提供依据。本专利技术是通过以下技术方案实现的:1数据处理和转换将各个样本的变异进行编码。通过高通量测序数据获得变异信息,包括HLA型别(C*06:02、C*07:04、DPB1*05:01),单核苷酸多态性位点(SNP位点)和氨基酸(snp31443520、B:Y33Y、B:Y91C、B:Y140S、snp32472030)。然后对每样本,根据易感位点,转化为本专利技术所需要的输入数据。针对HLA型别采用编辑距离打分,SNP和氨基酸采用0/1打分。具体方法如下:①针对易感HLA型别,计算每个个体该型别与易感型别的编辑距离并打分;②针对SNP位点,如果突变存在记为1,不存在记为0;③针对氨基酸突变,如果突变存在记为1,不存在记为0。打分完成后,将数据随机拆分,拆分为测试集和训练集,注意测试集和训练集数据没有重叠。样本数少的时候,可以按照5折交叉法(或10折交叉法)将数据分成5份(10份),每次取出1作为测试集,其余的作为训练集。2利用adaboost-SVM模型进行数据的分类本专利技术利用adaboost方法来集成支持向量机(SVM)分类器,整合利用所有的易感位点信息,提高数据的分类的正确率。2.1关于分类模型的构建2.1.1子分类模型SVM支持向量机模型SVM是经典的机器学习分类软件,属于有监督式学习。本专利技术首先利用的高斯核函数(公式1)将数据投射到高维度空间。其中,x为空间中任意一点,y为所选空间中心,σ为宽度参数,K(x,y)为x到y的空间距离。之后高维度空间中用SVM模型构建分隔平面。分隔平面构建主要是通过距离分隔平面最近的数个点来确定(如图1所示A点就是最近的点之一),并且将最近的点到分隔平面的连线称为支持向量,当支持向量达到最大化时候的平面就设为分隔平面,也即是通过分隔平面将数据最大地分开。本专利技术采用基于python2的SVM模型(参考网站https://www.manning.com/books/machine-learning-in-action)。2.1.2分类模型集成算法AdaboostAdaboost是一种基于错误提升分类器性能的集成方法,通过每一个样本多次训练,通过错误率反复修正分类器最后整合得到集成后的结果。具体方法:首先对样本赋予一样同等的权重。然后在训练数集数据上训练SVM并计算该分类器的错误率(ε,公式2)。错误率ε=正确分类数目/总样本数目(公式2)然后调整高斯核函数σ,之后在同一数据集上再次SVM。在分类器的第二次训练当中,将会重新调整每个样本的权重(这里的权重是一个多维度的向量),其中分类正确样本的下次分类权重将会降低,分类错误的样本的下次权重将会提高。也就是说,最终达到分类正确时候的权重会比分类错误的权重占比要大。具体方法是根据错误率计算每个分类器的权重α。计算出α之后可以对权重进行更新。分类正确:分类错误:α为基本分类器在最终分类器中的权重,ε为分类器的错误率;(t)代表顺序,t代表本次,t+1代表下一次;Di为第i个训练样本权值。计算权值D之后,开始进入下一轮迭代。不断地重复训练和调整权重的过程,直到训练错误率为0或者弱分类器的数目达到指定值。本专利技术采用基于python2的adaboost集成框架(参考网站https://www.manning.com/books/machine-learning-in-action)3对数据进行分类和评估构建好输入训练集和测试集之后,代入构建的adaboost-SVM模型中进行分类。通过分类模型的结果与实际患病与否的情况进行比较。通过计算准确率和绘制ROC曲线来对结果进行评估。ROC曲线是用于选择最佳的信号模型的方法。通常可计算ROC曲线下方面积(AUC)来判断分类模型好坏,具体参考表1。表1本专利技术的有益效果在于:目前缺乏相关的技术来对银屑病数据进行分类和预测,只停留在判断位点有无来推断患病情况。本专利技术利用有效的机器学习分类器SVM进行分类,并通过了adaboost框架来集成SVM,提高分类器的准确性。该模型可以整合SNP、氨基酸和型别数据进行分类,综合考虑各个维度的信息,提高了数据了分类结果的准确性。附图说明图1为高维度空间中用SVM模型构建分隔平面的示意图;图2为本专利技术训练集分类结果的ROC曲线;图3为本专利技术测试集分类结果的ROC曲线。具体实施方式为更好理解本专利技术,下面结合实施例及附图对本专利技术作进一步描述,以下实施例仅是对本专利技术进行说明而非对其加以限定。实施例1选择了银屑病30岁以下样本进行研究共计5168例。利用基于python2语言的adaboost-SVM模型针对易感位点构建模型进行分类。1数据的处理和转换本实施案例中,首先通过变异检测获得样本的变异信息ped和map文件。之后根据易感位点(表2)提取出HLA区域变异信息。其中型别(1、2、7)的打分按照编辑距离进行打分(打分矩阵见表3),氨基酸位点和SNP位点(3、4、5、6、8)按照存在与否进行打分,存在打分为1,不存在打分为0。表2易感位点表3编辑距离打分矩阵得到数据列表,由于数据量5168例,所以本案选择2000例作为训练集,余下样本作为测试集。2代入模型将处理好的数据代入本专利技术构建的adaboost-SVM模型中进行计算,本案设置9个SVM分类器,σ取值从30到3,从大到小逐次递减。3得到结果如图2和3所示,本案分类错误率为23.9%,训练集AUC(ROC曲线下面积)为0.833,测试集AUC为0.868,说明本专利技术在本实施例中达到良好效果。以上所述实施方式仅仅是对本专利技术的优选实施方式进行描述,并非对本专利技术的范围进行限定,在不脱离本专利技术设计精神的前提下,本领域普通技术人员对本专利技术的技术方案作出的各种变形和改进,均应落入本专利技术的权利要求书确定的保护范围内。本文档来自技高网...
一种与银屑病相关的分类模型的构建方法

【技术保护点】
一种与银屑病相关的分类模型的构建方法,其特征在于,包括以下步骤:(1)选取银屑病易感位点;(2)根据不同类型的易感位点,转化为输入数据;(3)利用Adaboost‑SVM模型进行数据的分类。

【技术特征摘要】
1.一种与银屑病相关的分类模型的构建方法,其特征在于,包括以下步骤:(1)选取银屑病易感位点;(2)根据不同类型的易感位点,转化为输入数据;(3)利用Adaboost-SVM模型进行数据的分类。2.根据权利要求1所述的一种与银屑病相关的分类模型的构建方法,其特征在于:步骤(1)所述银屑病易感位点包括HLA型别、SNP位点和氨基酸中的至少一种。3.根据权利要求2所述的一种与银屑病相关的分类模型的构建方法,其特征在于:所述HLA型别的易感位点包括C*06:02、C*07:04、DPB1*05:01中的至少一种;所述SNP位点和氨基酸的易感位点包括snp31443520、B:Y33Y、B:Y91C、B:Y140S、snp32472030中的至少一种。4.根据权利要求1所述的一种与银屑病相关的分类模型的构建方法,其特征在于,步骤(2)所述的转化方法为:若易感位点为一段区域,则根据其相似度进行打分;若易感位点...

【专利技术属性】
技术研发人员:孙良丹张涛甄琪王文俊钱文君莫晓东吴静郑晓冬李报
申请(专利权)人:安徽医科大学第一附属医院深圳华大基因研究院
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1