一种从FASTQ文件中快速判断样本性别的方法技术

技术编号:31379892 阅读:55 留言:0更新日期:2021-12-15 11:24
本发明专利技术公开了一种从FASTQ文件中快速判断样本性别的方法,包括:(1)根据参考基因组,生成Y染色体上特有的K

【技术实现步骤摘要】
一种从FASTQ文件中快速判断样本性别的方法


[0001]本专利技术涉及生物学与精准医学高通量测序与变异检测
,具体涉及一种从FASTQ文件中快速判断样本性别的方法。

技术介绍

[0002]伴随着现代医学的快速发展,高通量测序技术(Next

Generation Sequencing, NGS)的成本也越来越低,逐渐成为遗传病、肿瘤和其它基因检测的首选方法。FASTQ是最常见的用来存储NGS测序碱基和对应质量分数以及其它相关信息的文件格式。FASTQ也是测序数据交付和基因组分析的原始数据,可以在其基础上,通过大量的计算,得到其它格式的NGS数据和结果,如比对文件BAM和变异检出文件VCF。研究人员在分析NGS数据时,通常需要核实样本性别和数据性别是否一致,这对于判断数据和样本是否一致、有无污染,以及后续的染色体拷贝数分析和变异解读至关重要。
[0003]目前判断NGS数据性别的主流研究思路都是从BAM中分析X染色体和Y染色体上特定基因的覆盖度,或者从VCF中分析X染色体和Y染色体上的基因型分布,这些方法有以下几本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种从FASTQ文件中快速判断样本性别的方法,其特征在于,包括以下步骤:(1)根据参考基因组,生成Y染色体上特有的K

mer;(2)获取不同来源的全外显子组测序捕获探针的设计区间的交集,剔除在交集外的K

mer,将留存的K

mer以在捕获探针的设计区间出现的次数从多到少的顺序排列,选取靠前预设位数的K

mer作为最终的特有K

mer集合;(3)随机读取不同性别FASTQ文件的数据,将数据中包含的特有K

mer进行计数,并使用相同男女数量的真实数据分析特有K

mer在不同性别FASTQ文件中的分布差异,确定性别判断阈值;(4)根据阈值,对FASTQ文件进行性别判定。2.根据权利要求1所述的方法,其特征在于,步骤(1)的具体操作方法如下:a.获取参考基因组FASTA格式的参考序列;b.将参考序列按染色体拆分成两个序列文件:Y染色体和其他染色体;c.设置不同的K

mer长度,使...

【专利技术属性】
技术研发人员:吴星辰栗海波梁萌萌余伟师
申请(专利权)人:苏州赛美科基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1