SNP致病因素与疾病关联关系模型建立方法技术

技术编号:22566765 阅读:46 留言:0更新日期:2019-11-16 12:46
本发明专利技术属于数据处理技术领域,公开了一种SNP致病因素与疾病关联关系模型建立方法,采集当前SNP致病因素对应的样本数据集;依据初始值对样本数据集进行绝对划分;基于机器学习方法的SNP致病因素与疾病关联关系建模;建模结果准确性评价;确定SNP致病因素与疾病的关联关系模型。本发明专利技术通过绝对划分的方法,降低了各个SNP致病因素之间的相互影响程度,使建立的每个SNP致病因素与疾病的关联关系模型更准确。本发明专利技术操作简单,只需要输入原始的SNP数据和所有的SNP致病因素,即可得到每个SNP致病因素与疾病的较为准确的关联关系模型。

Establishment of a model for the relationship between pathogenic factors and diseases in SNP

The invention belongs to the field of data processing technology, and discloses a method for establishing the model of the relationship between pathogenic factors and diseases of SNP, collecting the sample data set corresponding to the current pathogenic factors of SNP, absolutely dividing the sample data set according to the initial value, modeling the relationship between pathogenic factors and diseases of SNP based on machine learning method, evaluating the accuracy of modeling results, determining the relationship between pathogenic factors and diseases of SNP The relationship model of disease. Through the method of absolute division, the invention reduces the degree of mutual influence among the pathogenic factors of each SNP, and makes the correlation model of each SNP pathogenic factor and disease more accurate. The invention is simple in operation, and only needs to input the original SNP data and all the pathogenic factors of SNP to obtain a more accurate correlation model of each SNP pathogenic factor and disease.

【技术实现步骤摘要】
SNP致病因素与疾病关联关系模型建立方法
本专利技术属于数据处理
,尤其涉及一种SNP致病因素与疾病关联关系模型建立方法。
技术介绍
目前,最接近的现有技术:SNP:单核苷酸多态性(SingleNucleotidePolymorphisms),是指在基因组上由单个核苷酸(A,T,C,G)变异所引起的多态性。越来越多的研究证据表明SNP与疾病有着密切的关系,而这种关联关系正是理解疾病产生原因、进行医疗预防及诊断的基础。深入了解SNP与疾病之间的关联关系能够为理解疾病的致病机理提供可能性,也能够在治疗和战胜复杂疾病的道路上更进一步。可将SNP与疾病关联关系的研究分为两类:SNP级和SNP因素级。SNP级关联关系研究,是对从基因组数据中找出的与疾病表型关联的SNP子集,建立这些SNP与疾病表型的关联关系模型。SNP因素级关联关系研究,则是通过从基因组数据中找出的与疾病表型相关的所有SNP致病因素,建立其中每一个SNP致病因素与疾病表型的关联关系。前者是建立的是一个SNP子集与疾病表型的关联关系,后者则是针对多个SNP子集中的每一个,建立其与疾病表型的关联关系。目前SNP级研究非常广泛,而SNP因素级研究极其有限。在SNP级关联关系上目前的做法是:训练一个分类器,分类器的结构和参数就给出了这个SNP子集与疾病表型的关联关系。各类分类器都有在这个问题上的应用,包括多层感知器网络、决策树、支持向量机、随机森林等等。在SNP因素级关联关系问题上,目前技术非常有限,典型的是通过多层感知器(MLP)来实现。基于MLP的SNP致病因素与疾病关联关系建模方法,其基本思路是为每一个SNP致病因素分别建立MLP神经网络,步骤如下:1)建立MLP神经网络,随机初始化网络连接的权值,并设定相关参数;2)输入样本数据(包括SNP数据及对应类别);3)迭代训练网络,直到网络收敛稳定;4)用SNP致病因素的各种SNP状态组合作为测试数据输入网络,网络的输出即为对应组合分类为有病的后验概率。SNP致病因素对疾病的影响方式和影响程度不明确。虽然已有的方法能够建立出SNP致病因素与疾病关联关系模型,但其所建立模型的准确性并不能达到预期,因此还需要进一步探索更好的方法和技术。综上所述,现有技术存在的问题是:SNP致病因素对疾病的影响方式和影响程度不明确。解决上述技术问题的难度:1.现有的方法所建立的模型准确率低;2.SNP数据具有小样本特性,样本量少使建模难度高、准确率受影响;3.某种特定疾病下往往其致病因素的个数不仅仅是一个,每个致病因素与疾病表型的关联关系是不同的,且是非确定的。解决上述技术问题的意义:越来越多的研究证据表明SNP与疾病有着密切的关系,特别是复杂疾病,常常是多个SNP致病因素引起的,其与每个SNP致病因素的关联关系也是多种多样的,认识这些关联关系正是理解疾病产生原因、进行医疗预防及诊断的基础,深入了解SNP与疾病之间的关联关系能够为我们理解疾病的致病机理提供可能性,也能够让在治疗和战胜复杂疾病的道路上更进一步。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种SNP致病因素与疾病关联关系模型建立方法。本专利技术是这样实现的,一种SNP致病因素与疾病关联关系模型建立方法,所述SNP致病因素与疾病关联关系模型建立方法包括:步骤一,采集当前SNP致病因素对应的样本数据集;步骤二,依据初始值对样本数据集进行绝对划分;步骤三,基于机器学习方法的SNP致病因素与疾病关联关系建模;步骤四,建模结果准确性评价;步骤五,确定SNP致病因素与疾病的关联关系模型。进一步,所述SNP致病因素与疾病关联关系模型建立方法具体包括:输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵;k为致病因素中SNP位点的个数,即致病因素规模,X为样本个数;样本的类别向量1*X维;当前SNP致病因素与疾病的初始化关联关系模型IM;输出为当前SNP致病因素与疾病的关联关系模型PM;算法步骤如下:1)对于输入的k*X的样本数据集,进行t次有放回的随机重采样(bootstrap),产生t个相同规模的重采样数据集;2)fori=1:t对于重采样数据集Ti,分别通过以下步骤建立当前SNP致病因素其与疾病的初始关联关系模型IMi:3)对在当前SNP致病因素上t次建模的结果进行平均,得到当前SNP致病因素与疾病的初始关联关系模型IM;4)fori=1:t对第i个重采样数据集Ti依据IM中的致病概率值,对样本数据集进行划分,得到划分后的数据集Hi;5)按照公式,对在当前SNP致病因素上t次建模的结果进行平均,得到当前输出的关联关系模型PM;6)判定当前关联关系模型PM的收敛性,判定规则如下:对于当前SNP致病因素,若(PM-IM)/3k≤threshold,即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值threshold(本实验中设定为0.005),则认为过程收敛,当前关联关系模型PM为最终所求关联关系模型,输出即可;否则,利用当前PM的值将IM更新,即IM=PM,转4);步骤1)-步骤6)不断重复直到收敛,即获得了该SNP致病因素与疾病的关联关系模型PM;对每个SNP致病因重复步骤1)-步骤6),获得了每个SNP致病因素与疾病的关联关系模型。所述2)进一步包括:通过CART决策树算法训练一个预测模型;将当前SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij(j=1,2,...,3k);当前SNP致病因素与疾病的初始化关联关系模型IMi,其中IMi=(Pi1,Pi2,...,Pij);endfor。所述4)进一步包括:利用第i个划分后的数据集Hi,分别通过以下步骤建立当前SNP致病因素与疾病的关联关系模型PMi:通过CART决策树算法训练一个预测模型;将当前这个k-way的SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij;得到当前SNP致病因素与疾病的关联关系模型PMi:PMi=(Pi1,Pi1,...,Pij);endfor进一步,所述建模结果准确性评价包括:通过用均方误差和JS散度对所建立的SNP致病因素与疾病关联关系模型的准确性进行评价,两种评价指标包括:评价指标1:MSE均方误差,在统计学中,MSE指估计值与真值之差平方的期望值,其定义式为:其中,对于任一SNP致病因素,N表示SNP状态组合的个数,其值为N=3k,k表示当前SNP致病因素中所含的SNP数目;ri为获得的第i个SNP状态组合下致病概率的估计值;oi为第i个SNP状态下的致病概率的本文档来自技高网
...

【技术保护点】
1.一种SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述SNP致病因素与疾病关联关系模型建立方法包括:/n步骤一,采集当前SNP致病因素对应的样本数据集;/n步骤二,依据初始值对样本数据集进行绝对划分;/n步骤三,基于机器学习方法的SNP致病因素与疾病关联关系建模;/n步骤四,建模结果准确性评价;/n步骤五,确定SNP致病因素与疾病的关联关系模型。/n

【技术特征摘要】
1.一种SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述SNP致病因素与疾病关联关系模型建立方法包括:
步骤一,采集当前SNP致病因素对应的样本数据集;
步骤二,依据初始值对样本数据集进行绝对划分;
步骤三,基于机器学习方法的SNP致病因素与疾病关联关系建模;
步骤四,建模结果准确性评价;
步骤五,确定SNP致病因素与疾病的关联关系模型。


2.如权利要求1所述的SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述SNP致病因素与疾病关联关系模型建立方法具体包括:
输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵;k为致病因素中SNP位点的个数,即致病因素规模,X为样本个数;样本的类别向量1*X维;当前SNP致病因素与疾病的初始化关联关系模型IM;
输出为当前SNP致病因素与疾病的关联关系模型PM;
算法步骤如下:
1)对于输入的k*X的样本数据集,进行t次有放回的随机重采样(bootstrap),产生t个相同规模的重采样数据集;
2)fori=1:t
对于重采样数据集Ti,分别通过以下步骤建立当前SNP致病因素其与疾病的初始关联关系模型IMi:
3)对在当前SNP致病因素上t次建模的结果进行平均,得到当前SNP致病因素与疾病的初始关联关系模型IM;



4)fori=1:t
对第i个重采样数据集Ti依据IM中的致病概率值,对样本数据集进行划分,得到划分后的数据集Hi;
5)按照公式,对在当前SNP致病因素上t次建模的结果进行平均,得到当前输出的关联关系模型PM;



6)判定当前关联关系模型PM的收敛性,判定规则如下:
对于当前SNP致病因素,若(PM-IM)/3k≤threshold,即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值threshold(本实验中设定为0.005),则认为过程收敛,当前关联关系模型PM为最终所求关联关系模型,输出即可;
否则,利用当前PM的值将IM更新,即IM=PM,转4);
步骤1)-步骤6)不断重复直到收敛,即获得了该SNP致病因素与疾病的关联关系模型PM;对每个SNP致病因重复步骤1)-步骤6),获得了每个SNP致病因素与疾病的关联关系模型。


3.如权利要求2所述的SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述2)进一步包括:
通过CART决策树算法训练一个预测模型;
将当前SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij(j=1,2,…,3k);
当前...

【专利技术属性】
技术研发人员:张军英朱皓晨
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利