当前位置: 首页 > 专利查询>清华大学专利>正文

基因关联分析的修正方法及修正装置制造方法及图纸

技术编号:16919634 阅读:51 留言:0更新日期:2017-12-31 15:04
本发明专利技术公开了一种基因关联分析的修正方法及修正装置,其中,方法包括:获取新的样本的基因序列;生成新的样本;对所述新的样本进行标签赋值,其中,将所述新的样本与预设的患病以及健康的样本进行比对,以确定所属类别并放弃或者保留;重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤,以得到满足预设条件的多个样本,并获取新的数据集,以进行基于回归方程的似然比检验。该方法可以保持原有数据中内在的基因信息,同时不违背原有的统计检验框架,从而原有的统计检验方法也可以直接使用,提高修正的适用性和准确性,简单易实现。

【技术实现步骤摘要】
基因关联分析的修正方法及修正装置
本专利技术涉及大数据分析、精准医疗与基因工程
,特别涉及一种基因关联分析的修正方法及修正装置。
技术介绍
GWAS(Genome-wideassociationstudy,基因关联分析)在揭示遗传疾病的致病原理方面有着重要的意义。但是,现有的GWAS方法仍然存在很多缺失的因素来完整的解释复杂遗传疾病的致病原因,造成“缺失的遗传性”现象。针对这个问题,相关技术中,许多方法从不同的角度提出可能存在的原因,来解释缺失的致病机理。但是,在统计学与生物学两个领域,目前的工作仍然无法给出一个完整的解释方案。
技术实现思路
本申请是基于专利技术人对以下问题的认识和发现作出的:考虑可能造成缺失遗传性的一种新的致病机理,即采集数据时不同种类数据的比例差异。在针对某种疾病的传统GWAS分析中,通常是对一定数量的健康个体以及患病个体的基因数据进行采集,然后进行统计分析。但是,如果要对某种特定的疾病进行分析,或者要对特定的种群进行研究的时候,很有可能采集不到足够的患病人群样本。因为健康人群容易寻找,但是患病人群具有特异性,如果分析的是一种罕见疾病的时候,那么本身满足要求的个体数目就是非常有限的。当收集不到足够的致病人群数据时,传统的逻辑斯特回归(Logisticregression)加卡方检验方法会发生严重的统计偏差。这是因为在逻辑斯特回归的参数求解过程中,每一个样本都会对统计误差有一个相同重要性的贡献衡量,无论其是患病个体还是健康个体。当收集的数据中患病人群的数目远远小于健康人群数目时,患病人群整体误差会远远小于健康人群所造成的误差,从而导致对逻辑斯特回归的求解过程更加偏向于减少健康人群的误差,而相对忽视患病人群的误差,从而包含在患病人群中的致病信息一并被忽视掉,造成了GWAS方法对于疾病发现性能的降低。在机器学习领域,对于这种正负样本不平衡数据的研究主要集中在对数据进行分类领域。通常来说,这类方法利用的是上采样技术来额外生成患病样本的合成数据,来人工制造一个相对平衡的数据集。但是这种方法很难应用到现有的GWAS分析框架中去,主要存在两个限制:首先现有方法考虑的是如何提高对不同类型的分类能力,而GWAS考虑的是如何发现更显著的位点。本质上,这是两个不同类型的问题。第二个是现有的方法是在传统的正交欧式空间中建模,但是在真实的基因数据中,信息是以序列的形式进行编码的。因而,内在的基因结构需要在分析中进行明确的建模。本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基因关联分析的修正方法,该方法可以提高修正的适用性和准确性,简单易实现。本专利技术的另一个目的在于提出一种基因关联分析的修正装置。为达到上述目的,本专利技术一方面实施例提出了一种基因关联分析的修正方法,包括以下步骤:获取序列步骤:根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列;生成样本步骤:根据所述新的样本的基因序列生成新的样本;标签赋值步骤:对所述新的样本进行标签赋值,其中,将所述新的样本与预设的患病以及健康的样本进行比对,以确定所属类别并放弃或者保留;似然比检验步骤:重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤,以得到满足预设条件的多个样本,并获取新的数据集,以进行基于回归方程的似然比检验。本专利技术实施例的基因关联分析的修正方法,专门针对基因关联分析中存在的数据样本补平衡问题设计,可以利用概率生成模型,对已有数据的基因结构进行建模学习,获得数据内在的信息与统计结构,然后有针对性的生成新的样本,考虑整体的数据结构关系,赋给每个样本的标签类别,保持了原有数据中内在的基因信息,同时不违背原有的统计检验框架,从而原有的统计检验方法也可以直接使用,提高修正的适用性和准确性,简单易实现。另外,根据本专利技术上述实施例的基因关联分析的修正方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述训练的隐马尔科夫模型的训练方法包括:检测基因核苷酸多态性位点(SNP)si上游下游位置的L个SNP;根据所述L个SNP得到基因集合在所述基因集合上,通过隐马尔科夫模型对序列进行建模,并通过训练所述隐马尔科夫模型到生成模型的参数集Θ,以得到所述训练的隐马尔科夫模型。进一步地,在本专利技术的一个实施例中,所述得到所述训练的隐马尔科夫模型,进一步包括:通过最大化所述参数集Θ={π,A,B}来计算得到最适合所述基因集合的隐马尔科夫模型,且所述隐马尔科夫模型为:其中,π为进入HMM隐状态每种状态的概率,A={aij}为为隐状态从i到j进行转移的概率,B={bjt}为从隐节点i观测到基因类型t的概率。进一步地,在本专利技术的一个实施例中,所述获取新的样本的基因序列,进一步包括:获取所述新的样本的初始状态;根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列;获取从所述隐状态序列按照发射矩阵进行随机观测的结果,并生成所述新的样本的基因序列。可选地,在本专利技术的一个实施例中,所述预设条件为所述多个样本组成的样本集合满足正负平衡。为达到上述目的,本专利技术另一方面实施例提出了一种基因关联分析的修正装置,包括:获取模块,用于根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列,以执行获取序列步骤;生成模块,用于根据所述新的样本的基因序列生成新的样本,以执行生成样本步骤;赋值模块,用于对所述新的样本进行标签赋值,其中,将所述新的样本与预设的患病以及健康的样本进行比对,以确定所属类别并放弃或者保留,以执行标签赋值步骤;检验模块,用于重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤,以得到满足预设条件的多个样本,并获取新的数据集,以进行基于回归方程的似然比检验,以执行似然比检验步骤。本专利技术实施例的基因关联分析的修正装置,专门针对基因关联分析中存在的数据样本补平衡问题设计,可以利用概率生成模型,对已有数据的基因结构进行建模学习,获得数据内在的信息与统计结构,然后有针对性的生成新的样本,考虑整体的数据结构关系,赋给每个样本的标签类别,保持了原有数据中内在的基因信息,同时不违背原有的统计检验框架,从而原有的统计检验方法也可以直接使用,提高修正的适用性和准确性,简单易实现。另外,根据本专利技术上述实施例的基因关联分析的修正装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,还包括:训练模块,用于获取所述训练的隐马尔科夫模型,其中,所述训练模块具体用于检测基因核苷酸多态性位点(SNP)si上游下游位置的L个SNP,并根据所述L个SNP得到基因集合并且在所述基因集合上,通过隐马尔科夫模型对序列进行建模,并通过训练所述隐马尔科夫模型到生成模型的参数集Θ,以得到所述训练的隐马尔科夫模型。进一步地,在本专利技术的一个实施例中,所述得到所述训练的隐马尔科夫模型,进一步包括:通过最大化所述参数集Θ={π,A,B}来计算得到最适合所述基因集合的隐马尔科夫模型,且所述隐马尔科夫模型为:其中,π为进入HMM隐状态每种状态的概率,A={aij}为为隐状态从i到j进行转移的概率,B={bjt}为从隐节点i观测到基因类型t的概率。进一步地,在本专利技术的一个实施例中,所述获取模块还用于获取所述新的样本的初始状态,并根据学习到的隐马本文档来自技高网...
基因关联分析的修正方法及修正装置

【技术保护点】
一种基因关联分析的修正方法,其特征在于,包括以下步骤:获取序列步骤:根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列;生成样本步骤:根据所述新的样本的基因序列生成新的样本;标签赋值步骤:对所述新的样本进行标签赋值,其中,将所述新的样本与预设的患病以及健康的样本进行比对,以确定所属类别并放弃或者保留;以及似然比检验步骤:重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤,以得到满足预设条件的多个样本,并获取新的数据集,以进行基于回归方程的似然比检验。

【技术特征摘要】
1.一种基因关联分析的修正方法,其特征在于,包括以下步骤:获取序列步骤:根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列;生成样本步骤:根据所述新的样本的基因序列生成新的样本;标签赋值步骤:对所述新的样本进行标签赋值,其中,将所述新的样本与预设的患病以及健康的样本进行比对,以确定所属类别并放弃或者保留;以及似然比检验步骤:重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤,以得到满足预设条件的多个样本,并获取新的数据集,以进行基于回归方程的似然比检验。2.根据权利要求1所述的基因关联分析的修正方法,其特征在于,所述训练的隐马尔科夫模型的训练方法包括:检测基因核苷酸多态性位点(SNP)si上游下游位置的L个SNP;根据所述L个SNP得到基因集合在所述基因集合上,通过隐马尔科夫模型对序列进行建模,并通过训练所述隐马尔科夫模型到生成模型的参数集Θ,以得到所述训练的隐马尔科夫模型。3.根据权利要求2所述的基因关联分析的修正方法,其特征在于,所述得到所述训练的隐马尔科夫模型,进一步包括:通过最大化所述参数集Θ={π,A,B}来计算得到最适合所述基因集合的隐马尔科夫模型,且所述隐马尔科夫模型为:其中,π为进入HMM隐状态每种状态的概率,A={aij}为为隐状态从i到j进行转移的概率,B={bjt}为从隐节点i观测到基因类型t的概率。4.根据权利要求1所述的基因关联分析的修正方法,其特征在于,所述获取新的样本的基因序列,进一步包括:获取所述新的样本的初始状态;根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列;获取从所述隐状态序列按照发射矩阵进行随机观测的结果,并生成所述新的样本的基因序列。5.根据权利要求1-4任一项所述的基因关联分析的修正方法,其特征在于,所述预设条件为所述多个样本组成的样本集合满足正负平衡。6.一种基因关联分析的修正装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:索津莉鲍峰戴琼海
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1