【技术实现步骤摘要】
一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法
本专利技术涉及生物信息
,尤其涉及一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法。
技术介绍
随着人们生活水平和医疗环境的不断提高和改善,那些仅仅由环境因素决定的疾病(比如传染病、营养不良等)基本得到了控制,而复杂疾病和孟德尔遗传病成为了目前影响人类健康的主要疾病。孟德尔遗传病是一种单基因疾病,其遗传过程遵循孟德尔遗传定律,目前研究者利用定位克隆的方法确定了相关遗传基因,基本阐明了其遗传方式。复杂疾病占人类疾病的大约80%以上,对人类健康造成了极大的伤害。哮喘、癌症、糖尿病、高血压、老年痴呆症、类风湿性关节炎、精神分裂症、心脏病、心血管疾病、肥胖、肿瘤等常见慢性疾病,统称为复杂疾病。复杂疾病的病因非常复杂,涉及到环境、基因以及它们之间的相互作用等多种因素。因此,急需阐明复杂疾病的致病原因及遗传机制,给复杂疾病的诊断和治疗提供科学依据,为人类健康提供保障,也具有重要的研究意义。从生物遗传学的角度看,决定生物复杂性状的遗传因素主要包括三个方面:基因主效应、基因与基因之间的相互作用和基因与环境之间的相互作用。通过生物学大量实验研究发现,控制生物复杂性状的主要原因是基因与基因之间的相互作用。基因与基因之间的相互作用,又称为上位性(Epistasis),它主要表现为SNP之间的相互作用。同时,随着高通量技术的迅速发展,目前产生了海量的生物数据。利用全基因组关联研究(Genome-wideAssociationStudy,GWAS)方法从基因组范围内的数据中筛选出和疾病显著关联的SNPs,从而阐释复杂疾病的遗传 ...
【技术保护点】
1.一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,包括以下步骤:步骤1、对SNP基因型数据,将基因型数据表示为0、1、2形式的数据,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型;获取待挖掘的基因样本,以样本数为单位分为0、1、2三组,将基因型数据转换为二进制形式表示的布尔型数据0、1;步骤2、基于信息熵理论,计算任意SNP位点对与表型性状间条件互信息,根据计算的互信息大小对节点对进行排序,取出top‑N节点对,构建包含SNP位点对的初始网络图;步骤3、在不生成环的前提下,对初始网络个体通过随机增加边、删除边、逆转边操作生成下一个网络个体,然后在下一个网络个体的基础上再生成新的网络个体;重复以上生成新网络个体的操作,直到网络个体数量达到初始种群规模大小;步骤4、通过禁忌搜索优化的遗传算法的三种操作,包括选择、交叉和变异,以及贝叶斯网络的打分机制,对步骤3得到的初始网络种群进行演化,初始网络种群为包括SNP位点的贝叶斯网络,找到网络结构的最优解,从而获取到影响表型性状的上位性基因位点。
【技术特征摘要】
1.一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,包括以下步骤:步骤1、对SNP基因型数据,将基因型数据表示为0、1、2形式的数据,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型;获取待挖掘的基因样本,以样本数为单位分为0、1、2三组,将基因型数据转换为二进制形式表示的布尔型数据0、1;步骤2、基于信息熵理论,计算任意SNP位点对与表型性状间条件互信息,根据计算的互信息大小对节点对进行排序,取出top-N节点对,构建包含SNP位点对的初始网络图;步骤3、在不生成环的前提下,对初始网络个体通过随机增加边、删除边、逆转边操作生成下一个网络个体,然后在下一个网络个体的基础上再生成新的网络个体;重复以上生成新网络个体的操作,直到网络个体数量达到初始种群规模大小;步骤4、通过禁忌搜索优化的遗传算法的三种操作,包括选择、交叉和变异,以及贝叶斯网络的打分机制,对步骤3得到的初始网络种群进行演化,初始网络种群为包括SNP位点的贝叶斯网络,找到网络结构的最优解,从而获取到影响表型性状的上位性基因位点。2.根据权利要求1所述的基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,该方法还包括对构建的网络进行判断的方法:步骤5、采用适应度函数作为评判网络个体优劣的标准,采用BIC打分的方法对网络的优劣进行判断。3.根据权利要求2所述的基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,步骤2和步骤5中,将基因型数据转换为二进制形式表示的布尔型数据,直接利用逻辑与运算对二进制数据进行操作,进而快速的进行节点间条件互信息和贝叶斯网络的BIC打分计算。4.根据权利要求1所述的基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,步骤2中构建包含SNP位点对的初始网络图的具体方法为:步骤2.1、设待挖掘的上位性基因位点个数nlocus,对所有位点中nlocus个位点进行排列组合,基于信息熵理论,利用逻辑与操作快速地计算不同组合的nlocus个位点与表型性状间条件互信息;步骤2.2、根据计算的条件互信息大小对不同的节点对进行排序,取出top-N节点对,其中N的大小根据实验结果进行确定;对于未包含在top-N节点对中SNP位点,选择其第一次出现的节点对,将其插入到top-N节点对中;步骤2.3、将所有的基因SNP位点看作网络中节点,根据步骤2.2得到的top-N...
【专利技术属性】
技术研发人员:刘建晓,果杨,钟芷漫,杨晨,胡江峰,蒋雅玲,梁子珍,高辉,
申请(专利权)人:华中农业大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。