基因关联分析的修正方法及修正装置制造方法及图纸

技术编号：16919634 阅读：51 留言：0更新日期：2017-12-31 15:04

本发明专利技术公开了一种基因关联分析的修正方法及修正装置，其中，方法包括：获取新的样本的基因序列；生成新的样本；对所述新的样本进行标签赋值，其中，将所述新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留；重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验。该方法可以保持原有数据中内在的基因信息，同时不违背原有的统计检验框架，从而原有的统计检验方法也可以直接使用，提高修正的适用性和准确性，简单易实现。

全部详细技术资料下载

【技术实现步骤摘要】
基因关联分析的修正方法及修正装置
本专利技术涉及大数据分析、精准医疗与基因工程
，特别涉及一种基因关联分析的修正方法及修正装置。
技术介绍
GWAS(Genome-wideassociationstudy，基因关联分析)在揭示遗传疾病的致病原理方面有着重要的意义。但是，现有的GWAS方法仍然存在很多缺失的因素来完整的解释复杂遗传疾病的致病原因，造成“缺失的遗传性”现象。针对这个问题，相关技术中，许多方法从不同的角度提出可能存在的原因，来解释缺失的致病机理。但是，在统计学与生物学两个领域，目前的工作仍然无法给出一个完整的解释方案。
技术实现思路
本申请是基于专利技术人对以下问题的认识和发现作出的：考虑可能造成缺失遗传性的一种新的致病机理，即采集数据时不同种类数据的比例差异。在针对某种疾病的传统GWAS分析中，通常是对一定数量的健康个体以及患病个体的基因数据进行采集，然后进行统计分析。但是，如果要对某种特定的疾病进行分析，或者要对特定的种群进行研究的时候，很有可能采集不到足够的患病人群样本。因为健康人群容易寻找，但是患病人群具有特异性，如果分析的是一种罕见疾病的时候，那么本身满足要求的个体数目就是非常有限的。当收集不到足够的致病人群数据时，传统的逻辑斯特回归(Logisticregression)加卡方检验方法会发生严重的统计偏差。这是因为在逻辑斯特回归的参数求解过程中，每一个样本都会对统计误差有一个相同重要性的贡献衡量，无论其是患病个体还是健康个体。当收集的数据中患病人群的数目远远小于健康人群数目时，患病人群整体误差会远远小于健康人群所造成的误差，从而导致...
基因关联分析的修正方法及修正装置

【技术保护点】
一种基因关联分析的修正方法，其特征在于，包括以下步骤：获取序列步骤：根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列；生成样本步骤：根据所述新的样本的基因序列生成新的样本；标签赋值步骤：对所述新的样本进行标签赋值，其中，将所述新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留；以及似然比检验步骤：重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验。

【技术特征摘要】
1.一种基因关联分析的修正方法，其特征在于，包括以下步骤：获取序列步骤：根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列；生成样本步骤：根据所述新的样本的基因序列生成新的样本；标签赋值步骤：对所述新的样本进行标签赋值，其中，将所述新的样本与预设的患病以及健康的样本进行比对，以确定所属类别并放弃或者保留；以及似然比检验步骤：重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤，以得到满足预设条件的多个样本，并获取新的数据集，以进行基于回归方程的似然比检验。2.根据权利要求1所述的基因关联分析的修正方法，其特征在于，所述训练的隐马尔科夫模型的训练方法包括：检测基因核苷酸多态性位点(SNP)si上游下游位置的L个SNP；根据所述L个SNP得到基因集合在所述基因集合上，通过隐马尔科夫模型对序列进行建模，并通过训练所述隐马尔科夫模型到生成模型的参数集Θ，以得到所述训练的隐马尔科夫模型。3.根据权利要求2所述的基因关联分析的修正方法，其特征在于，所述得到所述训练的隐马尔科夫模型，进一步包括：通过最大化所述参数集Θ＝{π,A,B}来计算得到最适合所述基因集合的隐马尔科夫模型，且所述隐马尔科夫模型为：其中，π为进入HMM隐状态每种状态的概率，A＝{aij}为为隐状态从i到j进行转移的概率，B＝{bjt}为从隐节点i观测到基因类型t的概率。4.根据权利要求1所述的基因关联分析的修正方法，其特征在于，所述获取新的样本的基因序列，进一步包括：获取所述新的样本的初始状态；根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列；获取从所述隐状态序列按照发射矩阵进行随机观测的结果，并生成所述新的样本的基因序列。5.根据权利要求1-4任一项所述的基因关联分析的修正方法，其特征在于，所述预设条件为所述多个样本组成的样本集合满足正负平衡。6.一种基因关联分析的修正装置，其特征在于，包括：...

【专利技术属性】
技术研发人员：索津莉，鲍峰，戴琼海，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人