一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法技术

技术编号:20548191 阅读:29 留言:0更新日期:2019-03-09 20:46
本发明专利技术公开了一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,包括:1、将基因型数据转换为二进制表示的布尔型数据;2、利用逻辑与操作快速地计算任意SNP位点对与表型间条件互信息,取出top‑N节点对,构建包含SNP位点的初始网络图;3、基于初始网络个体,通过随机增加边、删除边、逆转边生成新的个体,直到网络个体数量达到种群大小规模;4、通过遗传算法的三种操作与贝叶斯网络的打分机制,对贝叶斯网络结构进行演化,找到网络结构的最优解,快速准确的获取到影响表型性状的上位性基因位点。本发明专利技术可以帮助生物学研究者得到影响特定表型性状的上位性基因位点,进而辅助基因功能挖掘,以及为不同物种的复杂数量性状的遗传基础解析提供借鉴。

【技术实现步骤摘要】
一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法
本专利技术涉及生物信息
,尤其涉及一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法。
技术介绍
随着人们生活水平和医疗环境的不断提高和改善,那些仅仅由环境因素决定的疾病(比如传染病、营养不良等)基本得到了控制,而复杂疾病和孟德尔遗传病成为了目前影响人类健康的主要疾病。孟德尔遗传病是一种单基因疾病,其遗传过程遵循孟德尔遗传定律,目前研究者利用定位克隆的方法确定了相关遗传基因,基本阐明了其遗传方式。复杂疾病占人类疾病的大约80%以上,对人类健康造成了极大的伤害。哮喘、癌症、糖尿病、高血压、老年痴呆症、类风湿性关节炎、精神分裂症、心脏病、心血管疾病、肥胖、肿瘤等常见慢性疾病,统称为复杂疾病。复杂疾病的病因非常复杂,涉及到环境、基因以及它们之间的相互作用等多种因素。因此,急需阐明复杂疾病的致病原因及遗传机制,给复杂疾病的诊断和治疗提供科学依据,为人类健康提供保障,也具有重要的研究意义。从生物遗传学的角度看,决定生物复杂性状的遗传因素主要包括三个方面:基因主效应、基因与基因之间的相互作用和基因与环境之间的相互作用。通过生物学大量实验研究发现,控制生物复杂性状的主要原因是基因与基因之间的相互作用。基因与基因之间的相互作用,又称为上位性(Epistasis),它主要表现为SNP之间的相互作用。同时,随着高通量技术的迅速发展,目前产生了海量的生物数据。利用全基因组关联研究(Genome-wideAssociationStudy,GWAS)方法从基因组范围内的数据中筛选出和疾病显著关联的SNPs,从而阐释复杂疾病的遗传机制是当前生物信息学研究的一个热点问题。GWAS方法主要侧重于主效基因的检测,在前期研究尽管利用该方法找到了很多与表型相关的位点,但也只能解释极少数的遗传变异。其中一个最重要的原因就是这些研究忽略了基因与基因之间的相互作用,即上位性。可见,进行上位性位点挖掘是目前解释复杂疾病遗传机制的主要手段。然而,目前上位性检测方法仍然存在计算困难、算法复杂度高、效率低下以及假阳性率高等问题,导致不能准确高效地检测出与疾病相关联的SNP位点及其组合。因此,在全基因组范围内提出更有效、更准确的上位性检测算法具有十分重要的研究意义,也对复杂疾病致病机理的发现、诊断、治疗和预防有着非常重要的作用。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,包括以下步骤:步骤1、对SNP基因型数据,将基因型数据表示为0、1、2形式的数据,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型;获取待挖掘的基因样本,以样本数为单位分为0、1、2三组,将基因型数据转换为二进制形式表示的布尔型数据0、1;步骤2、基于信息熵理论,计算任意SNP位点对与表型性状间条件互信息,根据计算的互信息大小对节点对进行排序,取出top-N节点对,构建包含SNP位点对的初始网络图;步骤3、在不生成环的前提下,对初始网络个体通过随机增加边、删除边、逆转边操作生成下一个网络个体,然后在下一个网络个体的基础上再生成新的网络个体;重复以上生成新网络个体的操作,直到网络个体数量达到初始种群规模大小;步骤4、通过禁忌搜索优化的遗传算法的三种操作,包括选择、交叉和变异,以及贝叶斯网络的打分机制,对步骤3得到的初始网络种群进行演化,初始网络种群为包括SNP位点的贝叶斯网络,找到网络结构的最优解,从而获取到影响表型性状的上位性基因位点。进一步地,本专利技术的该方法还包括对构建的网络进行判断的方法:步骤5、采用适应度函数作为评判网络个体优劣的标准,采用BIC打分的方法对网络的优劣进行判断。进一步地,本专利技术的步骤2和步骤5中,将基因型数据转换为二进制形式表示的布尔型数据,直接利用逻辑与运算对二进制数据进行操作,进而快速的进行节点间条件互信息和贝叶斯网络的BIC打分计算。进一步地,本专利技术的步骤2中构建包含SNP位点对的初始网络图的具体方法为:步骤2.1、设待挖掘的上位性基因位点个数nlocus,对所有位点中nlocus个位点进行排列组合,基于信息熵理论,利用逻辑与操作快速地计算不同组合的nlocus个位点与表型性状间条件互信息;步骤2.2、根据计算的条件互信息大小对不同的节点对进行排序,取出top-N节点对,其中N的大小根据实验结果进行确定;对于未包含在top-N节点对中SNP位点,选择其第一次出现的节点对,将其插入到top-N节点对中;步骤2.3、将所有的基因SNP位点看作网络中节点,根据步骤2.2得到的top-N节点对,将不同节点对相应的边插入到网络图中,构建初始网络图。进一步地,本专利技术的步骤4中进行演化的具体方法为:步骤4.1、选择操作;利用贝叶斯网络的评分方法对网络进行打分,将打分最高的最优贝叶斯网络个体放在种群的初始位置,采用轮盘赌选择方法选择网络个体进入下一代;步骤4.2、禁忌交叉操作;采用多列交叉方法对两个网络进行演化,并进行生成环判断;为了避免普通交叉操作产生早熟现象,利用禁忌搜索具有的记忆功能,进行交叉操作后把产生的子代网络与禁忌表中的个体进行比较;如果不属于禁忌列表,将这个子代网络个体进入到下一代,并将其存储到禁忌表中;如果该个体已经属于禁忌表,则抛弃这个子代个体,重新进行禁忌交叉操作,直到产生的子代不属于禁忌表为止;步骤4.3、禁忌变异操作;对网络个体以一定的变异概率进行增加边、删除边、逆转边操作,选择使网络评分增加最多的变异,从而得到优化网络结构;利用禁忌搜索具有的记忆功能,将变异产生的可改进当前适应值的劣解存入禁忌表中。进一步地,本专利技术的步骤2.1中的具体计算方法为:当挖掘影响表型Class的k个上位性SNP位点时,I(Class|SNP1,...SNPk)表示k个上位性SNP位点与表型Class间的条件互信息,其计算的公式为:I(Class|SNP1,...SNPk)=H(Class)+H(SNP1,...SNPk)-H(Class,SNP1,...SNPk)计算Class的信息熵H(Class)的公式为:计算k个SNP位点的信息熵H(SNP1,…,SNPk)的公式为:进一步地,本专利技术的计算BIC评分的具体方法为:用D表示样本数据,G表示贝叶斯网络结构,根据贝叶斯公式可得:P(G|D)=P(D|G)P(G)/P(D)其中,P(G)表示网络结构的先验知识;用θG表示网络结构的参数,通过边缘积分对上式展开可得:P(D|G)=∫P(D|G,θG)P(θG|G)dθG进而得到贝叶斯网络的BIC评分方法:其中m表示样本的总数量,n表示变量的个数,ri表示第i个变量的取值个数,qi表示第i个变量的父变量的组合个数,mijk表示第i个变量取第k个值,其父变量取第j个组合的样本个数。本专利技术产生的有益效果是:本专利技术的基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,首先将基因型数据转换为二进制表示的布尔型数据,利用逻辑与操作快速地计算任意SNP位点对与表型间条件互信息。根据计算的互信息大小,在对SNP位点对进行排序的基础上,取出top-N节点对,构建本文档来自技高网
...

【技术保护点】
1.一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,包括以下步骤:步骤1、对SNP基因型数据,将基因型数据表示为0、1、2形式的数据,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型;获取待挖掘的基因样本,以样本数为单位分为0、1、2三组,将基因型数据转换为二进制形式表示的布尔型数据0、1;步骤2、基于信息熵理论,计算任意SNP位点对与表型性状间条件互信息,根据计算的互信息大小对节点对进行排序,取出top‑N节点对,构建包含SNP位点对的初始网络图;步骤3、在不生成环的前提下,对初始网络个体通过随机增加边、删除边、逆转边操作生成下一个网络个体,然后在下一个网络个体的基础上再生成新的网络个体;重复以上生成新网络个体的操作,直到网络个体数量达到初始种群规模大小;步骤4、通过禁忌搜索优化的遗传算法的三种操作,包括选择、交叉和变异,以及贝叶斯网络的打分机制,对步骤3得到的初始网络种群进行演化,初始网络种群为包括SNP位点的贝叶斯网络,找到网络结构的最优解,从而获取到影响表型性状的上位性基因位点。

【技术特征摘要】
1.一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,包括以下步骤:步骤1、对SNP基因型数据,将基因型数据表示为0、1、2形式的数据,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型;获取待挖掘的基因样本,以样本数为单位分为0、1、2三组,将基因型数据转换为二进制形式表示的布尔型数据0、1;步骤2、基于信息熵理论,计算任意SNP位点对与表型性状间条件互信息,根据计算的互信息大小对节点对进行排序,取出top-N节点对,构建包含SNP位点对的初始网络图;步骤3、在不生成环的前提下,对初始网络个体通过随机增加边、删除边、逆转边操作生成下一个网络个体,然后在下一个网络个体的基础上再生成新的网络个体;重复以上生成新网络个体的操作,直到网络个体数量达到初始种群规模大小;步骤4、通过禁忌搜索优化的遗传算法的三种操作,包括选择、交叉和变异,以及贝叶斯网络的打分机制,对步骤3得到的初始网络种群进行演化,初始网络种群为包括SNP位点的贝叶斯网络,找到网络结构的最优解,从而获取到影响表型性状的上位性基因位点。2.根据权利要求1所述的基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,该方法还包括对构建的网络进行判断的方法:步骤5、采用适应度函数作为评判网络个体优劣的标准,采用BIC打分的方法对网络的优劣进行判断。3.根据权利要求2所述的基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,步骤2和步骤5中,将基因型数据转换为二进制形式表示的布尔型数据,直接利用逻辑与运算对二进制数据进行操作,进而快速的进行节点间条件互信息和贝叶斯网络的BIC打分计算。4.根据权利要求1所述的基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,其特征在于,步骤2中构建包含SNP位点对的初始网络图的具体方法为:步骤2.1、设待挖掘的上位性基因位点个数nlocus,对所有位点中nlocus个位点进行排列组合,基于信息熵理论,利用逻辑与操作快速地计算不同组合的nlocus个位点与表型性状间条件互信息;步骤2.2、根据计算的条件互信息大小对不同的节点对进行排序,取出top-N节点对,其中N的大小根据实验结果进行确定;对于未包含在top-N节点对中SNP位点,选择其第一次出现的节点对,将其插入到top-N节点对中;步骤2.3、将所有的基因SNP位点看作网络中节点,根据步骤2.2得到的top-N...

【专利技术属性】
技术研发人员:刘建晓果杨钟芷漫杨晨胡江峰蒋雅玲梁子珍高辉
申请(专利权)人:华中农业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1