一种基因芯片的制备方法技术

技术编号:24097561 阅读:46 留言:0更新日期:2020-05-09 11:10
本申请公开了一种基因芯片的制备方法,包括:获取包含指定人群基因变异位点的第一数据集;利用次等位基因频率从所述第一数据集中提取候选基因变异位点,组成候选数据集;获取多个验证数据集,每个所述验证数据集包含一种类型的经过功能验证的基因变异位点;基于所述候选数据集和所述多个验证数据集确定多种芯片变异位点,多种所述芯片变异位点构成基因芯片。本发明专利技术所制备的基因芯片中包含了多种类型的基因变异位点,实现了一种芯片多种用途,提高了芯片的适用性。

A preparation method of gene chip

【技术实现步骤摘要】
一种基因芯片的制备方法
本申请涉及一种基因芯片的制备方法,属于生物医学

技术介绍
随着人类基因组计划的顺利完成,开启了人类健康与生命科学研究的新时代。生物样本库的不断发展及技术的日趋成熟,更是为人类疾病尤其是重大慢性疾病的研究提供了丰富的样本资源及临床数据支撑。采用基因芯片技术对样本进行基因分型,通过队列基因数据的生物信息学分析去寻找特定的生物标志物,成为人类攻克一系列复杂疾病的强有力的技术手段。通过基因芯片技术获取基因分型数据,其宝贵价值也日益得到人们的理解与重视,世界各国政府及科研单位更是投入大量资源针对特定国家及地区的特定人群队列进行了诸多人群队列的基因分型工作。由于不同国家和地区的人群在基因型上有很大区别,所以在对样本进行基因分型时,所使用的基因芯片是有针对性的,其针对的是特定的国家和人群。现有技术中,并没有针对亚洲人群的基因芯片,同时,现有的基因芯片所覆盖的基因变异位点也较少,一种芯片只有一个用途,仅可用于检测具体的疾病,导致芯片的适用性差。
技术实现思路
本专利技术的目的在于,提供一种覆盖基因变异位点较多的基因芯片的制备方法,以解决现有技术中,基因芯片适用性差的技术问题。本专利技术提供了一种基因芯片的制备方法,包括:获取包含指定人群基因变异位点的第一数据集;利用次等位基因频率从所述第一数据集中提取候选基因变异位点,组成候选数据集;获取多个验证数据集,每个所述验证数据集包含一种类型的经过功能验证的基因变异位点;基于所述候选数据集和所述多个验证数据集确定多种芯片变异位点,多种所述芯片变异位点构成基因芯片。其中,包含指定人群基因变异位点的第一数据集为基于指定人群的全基因组测序数据获得的基因变异位点组成的数据集。优选地,基于所述候选数据集和所述多个验证数据集确定多种芯片变异位点,具体为:筛选出所述候选数据集与每个所述验证数据集中相同的基因变异位点,将筛选出的多种基因变异位点作为芯片变异位点。优选地,从所述第一数据集中提取候选基因变异位点,组成候选数据集,具体为:设定次等位基因频率的第一预设阈值;计算所述第一数据集中每一基因变异位点的次等位基因频率;提取所述第一数据集中次等位基因频率大于第一预设阈值的编码区基因变异位点,记为第一编码区基因变异位点,将第一编码区基因变异位点加入候选数据集中。优选地,从所述第一数据集中提取候选基因变异位点,组成候选数据集,具体为:设定次等位基因频率的第二预设阈值;提取所述第一数据集中次等位基因频率大于第二预设阈值的基因变异位点,记为第一GWAS基因变异位点,将第一GWAS基因变异位点加入候选数据集中。优选地,验证数据集包括人类白细胞抗原变异位点验证数据子集。优选地,所述验证数据集还包括药物动力学变异位点验证数据子集。优选地,所述验证数据集还包括族源变异位点验证数据子集。优选地,还包括:利用湿测试法从第一编码区基因变异位点中筛选出编码区芯片变异位点。优选地,还包括:利用基因补充方法从第一GWAS基因变异位点中筛选出GWAS芯片变异位点。优选地,还包括:获取线粒体变异位点验证数据集;将线粒体变异位点验证数据集中包含的线粒体基因变异位点作为芯片变异位点。优选地,所述指定人群为中国人。本专利技术的基因芯片的制备方法,相较于现有技术,具有如下有益效果:本专利技术是针对中国人群特有的基因变异位点设计的一款基因芯片,它包含了编码区基因变异位点、GWAS基因变异位点、HLA基因变异位点、ADME基因变异位点,族源基因变异位点和线粒体变异位点。这些变异位点都是使用中国人群的全基因组测序数据筛选出来的。本专利技术使用全基因组测序数据作为基础数据集,可以获得整个基因组的数据,避免基因不全影响所制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。本专利技术基因芯片中的变异位点包含了大量中国人群在编码区的变异位点,对编码区的变异位点的覆盖度达到了88%。本专利技术基因芯片中的变异位点包含了大量的中国人群GWAS基因变异位点,对GWAS基因变异位点中次等位基因频率在5%以上的变异位点的覆盖率达到了96%以上。本专利技术的基因芯片中包含的HLA基因变异位点是人体免疫系统疾病相关的变异位点,使用该基因变异位点可以很好的研究1型糖尿病等自身免疫型疾病。本专利技术的基因芯片中包含的ADME基因变异位点是与药物转运相关的变异位点,使用这些变异位点的信息可以研究新药的药效,指导新药研究和开发。本专利技术的基因芯片所包含的族源基因变异位点,可以利用这些变异位点将中国南方人和中国北方人区分开,并在此基础上研究南北方的饮食差异,南北方的进化等问题。本专利技术的基因芯片中包含的线粒体变异位点,可以用于研究线粒体相关的疾病。附图说明图1为本专利技术一种基因芯片的制备方法的流程图。具体实施方式本专利技术的基因芯片的流程图参见图1,其具体实施过程为:本实施例是以包含2641个中国人的30倍测序深度的全基因组测序数据为基础数据集。使用全基因组测序数据作为基础数据集,可以获得整个基因组的数据,避免基因不全影响后续制备的基因芯片的精确性,同时,由于全基因组测序数据为高分辨率数据,便于从中获取大型、小型全面的变异位点。本实施例使用中国人的全基因组测序数据,以便利用中国人的基因变异位点,制备针对中国人的基因芯片。首先,利用GATK工具从基础数据集中提取基因变异位点,得到原始数据集,本实施例中获得的原始数据集中总共有1亿个基因变异位点。GATK工具会对原始数据集中的基因变异位点进行标记,将各种变异位点进行区分,同时标记出满足标准的基因变异位点标记为PASS。筛选出标记为PASS的基因变异位点,该基因变异位点中包括单核苷酸多态性变异位点(SNP变异位点)和插入缺失变异位点,总量为七千七百万个。然后,再将标记为插入缺失变异位点的位点删除,保留单核苷酸多态性变异位点,获得七千五百万个单核苷酸多态性变异位点(SNP变异位点)。由于所筛选获得的SNP变异位点较多,需要对其进行质量控制。本实施例利用最大丢失率、次等位基因频率和最小质量值对SNP变异位点进行质量控制。最大丢失率阈值设定为0.5,次等位基因频率阈值设定为3,最小质量阈值设定为30。该步的筛选过程为:判断SNP变异位点中每一个变异位点的碱基丢失率,当丢失率大于最大丢失率阈值时,去除该变异位点,否则保留该变异位点。将SNP变异位点中每一个变异位点的碱基的次等位基因频率与设定次等位基因频率阈值进行比较,当某一个变异位点小于设定次等位基因频率阈值时,去除该变异位点,否则保留。判断SNP变异位点中每一个变异位点的碱基质量值参数,当质量值参数小于最小质量值阈值时,去除该变异位点,否则保留该变异位点。进一步地,设定最小测序深度阈值为3,去除SNP变异位点中小于最本文档来自技高网...

【技术保护点】
1.一种基因芯片的制备方法,其特征在于,包括:/n获取包含指定人群基因变异位点的第一数据集;/n利用次等位基因频率从所述第一数据集中提取候选基因变异位点,组成候选数据集;/n获取多个验证数据集,每个所述验证数据集包含一种类型的经过功能验证的基因变异位点;/n基于所述候选数据集和所述多个验证数据集确定多种芯片变异位点,多种所述芯片变异位点构成基因芯片。/n

【技术特征摘要】
1.一种基因芯片的制备方法,其特征在于,包括:
获取包含指定人群基因变异位点的第一数据集;
利用次等位基因频率从所述第一数据集中提取候选基因变异位点,组成候选数据集;
获取多个验证数据集,每个所述验证数据集包含一种类型的经过功能验证的基因变异位点;
基于所述候选数据集和所述多个验证数据集确定多种芯片变异位点,多种所述芯片变异位点构成基因芯片。


2.根据权利要求1所述的基因芯片的制备方法,其特征在于,基于所述候选数据集和所述多个验证数据集确定多种芯片变异位点,具体为:
筛选出所述候选数据集与每个所述验证数据集中相同的基因变异位点,将筛选出的多种基因变异位点作为芯片变异位点。


3.根据权利要求1所述的基因芯片的制备方法,其特征在于,从所述第一数据集中提取候选基因变异位点,组成候选数据集,具体为:
设定次等位基因频率的第一预设阈值;
计算所述第一数据集中每一基因变异位点的次等位基因频率;
提取所述第一数据集中次等位基因频率大于第一预设阈值的编码区基因变异位点,记为第一编码区基因变异位点,将第一编码区基因变异位点加入候选数据集中。


4.根据权利要求1所述的基因芯片的制备方法,其特征在于,从所述第一数据集中提取候选基因变...

【专利技术属性】
技术研发人员:徐涛周凯欣王友何顺民陈飞王静
申请(专利权)人:中国科学院生物物理研究所中国科学院大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1