The invention belongs to the field of data processing technology, and discloses a method for establishing the model of the relationship between pathogenic factors and diseases of SNP, collecting the sample data set corresponding to the current pathogenic factors of SNP, absolutely dividing the sample data set according to the initial value, modeling the relationship between pathogenic factors and diseases of SNP based on machine learning method, evaluating the accuracy of modeling results, determining the relationship between pathogenic factors and diseases of SNP The relationship model of disease. Through the method of absolute division, the invention reduces the degree of mutual influence among the pathogenic factors of each SNP, and makes the correlation model of each SNP pathogenic factor and disease more accurate. The invention is simple in operation, and only needs to input the original SNP data and all the pathogenic factors of SNP to obtain a more accurate correlation model of each SNP pathogenic factor and disease.
【技术实现步骤摘要】
SNP致病因素与疾病关联关系模型建立方法
本专利技术属于数据处理
,尤其涉及一种SNP致病因素与疾病关联关系模型建立方法。
技术介绍
目前,最接近的现有技术:SNP:单核苷酸多态性(SingleNucleotidePolymorphisms),是指在基因组上由单个核苷酸(A,T,C,G)变异所引起的多态性。越来越多的研究证据表明SNP与疾病有着密切的关系,而这种关联关系正是理解疾病产生原因、进行医疗预防及诊断的基础。深入了解SNP与疾病之间的关联关系能够为理解疾病的致病机理提供可能性,也能够在治疗和战胜复杂疾病的道路上更进一步。可将SNP与疾病关联关系的研究分为两类:SNP级和SNP因素级。SNP级关联关系研究,是对从基因组数据中找出的与疾病表型关联的SNP子集,建立这些SNP与疾病表型的关联关系模型。SNP因素级关联关系研究,则是通过从基因组数据中找出的与疾病表型相关的所有SNP致病因素,建立其中每一个SNP致病因素与疾病表型的关联关系。前者是建立的是一个SNP子集与疾病表型的关联关系,后者则是针对多个SNP子集中的每一个,建立其与疾病表型的关联关系。目前SNP级研究非常广泛,而SNP因素级研究极其有限。在SNP级关联关系上目前的做法是:训练一个分类器,分类器的结构和参数就给出了这个SNP子集与疾病表型的关联关系。各类分类器都有在这个问题上的应用,包括多层感知器网络、决策树、支持向量机、随机森林等等。在SNP因素级关联关系问题上,目前技术非常有限,典型的是通过多层感知器(MLP ...
【技术保护点】
1.一种SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述SNP致病因素与疾病关联关系模型建立方法包括:/n步骤一,采集当前SNP致病因素对应的样本数据集;/n步骤二,依据初始值对样本数据集进行绝对划分;/n步骤三,基于机器学习方法的SNP致病因素与疾病关联关系建模;/n步骤四,建模结果准确性评价;/n步骤五,确定SNP致病因素与疾病的关联关系模型。/n
【技术特征摘要】
1.一种SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述SNP致病因素与疾病关联关系模型建立方法包括:
步骤一,采集当前SNP致病因素对应的样本数据集;
步骤二,依据初始值对样本数据集进行绝对划分;
步骤三,基于机器学习方法的SNP致病因素与疾病关联关系建模;
步骤四,建模结果准确性评价;
步骤五,确定SNP致病因素与疾病的关联关系模型。
2.如权利要求1所述的SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述SNP致病因素与疾病关联关系模型建立方法具体包括:
输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵;k为致病因素中SNP位点的个数,即致病因素规模,X为样本个数;样本的类别向量1*X维;当前SNP致病因素与疾病的初始化关联关系模型IM;
输出为当前SNP致病因素与疾病的关联关系模型PM;
算法步骤如下:
1)对于输入的k*X的样本数据集,进行t次有放回的随机重采样(bootstrap),产生t个相同规模的重采样数据集;
2)fori=1:t
对于重采样数据集Ti,分别通过以下步骤建立当前SNP致病因素其与疾病的初始关联关系模型IMi:
3)对在当前SNP致病因素上t次建模的结果进行平均,得到当前SNP致病因素与疾病的初始关联关系模型IM;
4)fori=1:t
对第i个重采样数据集Ti依据IM中的致病概率值,对样本数据集进行划分,得到划分后的数据集Hi;
5)按照公式,对在当前SNP致病因素上t次建模的结果进行平均,得到当前输出的关联关系模型PM;
6)判定当前关联关系模型PM的收敛性,判定规则如下:
对于当前SNP致病因素,若(PM-IM)/3k≤threshold,即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值threshold(本实验中设定为0.005),则认为过程收敛,当前关联关系模型PM为最终所求关联关系模型,输出即可;
否则,利用当前PM的值将IM更新,即IM=PM,转4);
步骤1)-步骤6)不断重复直到收敛,即获得了该SNP致病因素与疾病的关联关系模型PM;对每个SNP致病因重复步骤1)-步骤6),获得了每个SNP致病因素与疾病的关联关系模型。
3.如权利要求2所述的SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述2)进一步包括:
通过CART决策树算法训练一个预测模型;
将当前SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij(j=1,2,…,3k);
当前...
【专利技术属性】
技术研发人员:张军英,朱皓晨,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。