一种全基因组关联分析方法、系统及电子设备技术方案

技术编号:22058772 阅读:40 留言:0更新日期:2019-09-07 16:37
本申请属于基因数据处理技术领域,特别涉及一种全基因组关联分析方法、系统及电子设备。所述全基因组关联分析方法包括:步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。本申请通过将原始数据进行聚类,对样本进行特征表达,找到重要的特征,降低数据的计算量,根据各个样本之间的相似度,将相似度高的样本合并起来,去掉其余的样本,大大降低了内存的需求,提高了效率。

A Genome-wide Association Analysis Method, System and Electronic Equipment

【技术实现步骤摘要】
一种全基因组关联分析方法、系统及电子设备
本申请属于基因数据处理
,特别涉及一种全基因组关联分析方法、系统及电子设备。
技术介绍
全基因组关联分析(Genome-WideAssociationStudies,GWAS)在2005年首次提出,建立在SNP(SingleNucleotidePolymorphism)测序技术的基础上,在过去的十几年里,SNP测序技术的快速发展,全基因组关联分析已逐步在物种重要经济性状、植物育种、基因改良、尤其是在人类复杂疾病分析等方面起着越来越重要的作用。全基因组关联分析的目的是在整个基因组范围内找到与表型相关的易感基因位点变异。近年来,在全基因组关联分析领域涌现了大量的基因及其交互作用检测算法,尽管这些算法在领域内取得了巨大的成功,但当前依然存在着一些难题。目前在进行全基因组关联分析时,采用病例-对照的思路(case-control)设计分析流程,设立两组样本,其中一组为健康的对照组,另一组为患病的病例组,主要的分析方法是在单位点关联分析的大规模列联表里对等位基因或者基因型进行计数,确认某一等位基因出现在病例组中的个数和出现在对照组中的个数,其比值本文档来自技高网...

【技术保护点】
1.一种全基因组关联分析方法,其特征在于,包括以下步骤:步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。

【技术特征摘要】
1.一种全基因组关联分析方法,其特征在于,包括以下步骤:步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。2.根据权利要求1所述的全基因组关联分析方法,其特征在于,所述步骤a还包括:对样本进行基因测序,得到样本的原始测序数据。3.根据权利要求2所述的全基因组关联分析方法,其特征在于,在所述步骤a中,所述对样本的原始测序数据进行SNP点位确定具体为:利用GATK对样本的原始测序数据进行SNP点位确定。4.根据权利要求3所述的全基因组关联分析方法,其特征在于,在所述步骤b中,所述根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为:利用genetictrack将参考基因组SNP信息生成一行的坐标轴,坐标轴上的每个点都是向量的每一维;通过genetictrack将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中,得到长度为N维的特征向量Vx,如果Vx中维i的位置被一个点或一个区域覆盖,则i的数值为1,反之,则为0;最终得到样本的特征表达Sj,j=1,…,M,共有M个样本。5.根据权利要求4所述的全基因组关联分析方法,其特征在于,在所述步骤c中,所述将样本的特征向量进行聚类具体为:对样本的特征表达Sj,j=1,…,M进行归一化处理,通过Kmeans无监督聚类算法对样本的特征向量进行聚类,得到n个小groups,分别找出每个小groups中心的特征向量,并将所述中心的特征向量作为每个小groups的代表特征向量。6.一种全基因组关联分析系统,其特征在于,包括:SNP信息获取模块:用于对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;特征提取模块:用于建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;特征聚类模块:用于将样本的特...

【专利技术属性】
技术研发人员:郭宁魏彦杰张慧玲郑志春葛健秋冯圣中
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1