【技术实现步骤摘要】
一种批量合并关联分析结果中存在连锁不平衡SNP的方法
[0001]本专利技术属于生物
,涉及一种批量合并关联分析结果中存在连锁不平衡
SNP
的方法
。
技术介绍
[0002]关联分析
(association analysis)
是一种以位点间的连锁不平衡
(linkage disequilibrium)
为基础,采用统计方法检测遗传多态性与性状之间关联的分析方法
。
全基因组关联分析
(genome
‑
wide association study
,
GWAS)
最初应用于人类疾病相关的研究中,这些研究对人类理解相关疾病的遗传基础和分子机制具有显著的贡献
。
近年来,随着高密度
SNP
基因分型芯片和全基因组测序等技术的发展,
GWAS
广泛应用于作物复杂性状遗传结构的解析
。
与传统的连锁分析相比,
GWAS
有多 ...
【技术保护点】
【技术特征摘要】
1.
一种批量合并关联分析结果中存在连锁不平衡
SNP
的方法,其特征在于,步骤如下:
(1)
关联分析基因型文件“XXX.hmp.txt”记为
A
数据集,包含所有显著位点名称的文件“sig_snp_list.txt”记为
B
数据集,创建工作目录
sig_snp_combine
,将
A
数据集
、B
数据集和脚本“filter_trans_sig_snp_format.py”放在上述工作目录
sig_snp_combine
下,运行“python filter_trans_sig_snp_format.py
‑
g XXX.hmp.txt
‑
l sig_snp_list.txt[
‑
o sig_snp_geno.info.txt]”命令,得到结果文件“sig_snp_geno.info.txt”,记为
C
数据集;
A
数据集格式与关联分析常用软件
TASSEL
的
hmp
基因型格式相同,前
11
列标题为“rs#”,“alleles”,“chrom”,“pos”,“strand”,“assembly#”,“center”,“protLSID”,“assayLSID”,“panelLSID”,“QCcode”,第
12
列至最后1列标题为各个株系的名称,脚本利用其中“rs#”及第
12
列至最后1列信息,脚本运算前,
A
数据集文件需按“chrom”和“pos”两列信息进行排序;所述
B
数据集文件“sig_snp_list.txt”包含所有显著
SNP
的名称,无标题行;所述
C
数据集文件“sig_snp_geno.info.txt”包含
SNP
名称和各株系的数值型基因型信息;
(2)
关联分析结果文件包含所有显著关联位点,记为
D
数据集,名称自定义,脚本
gwas_loci_ld_combine.py
首先将同一染色体物理距离远的
SNP
分成不同的段,阈值
:1Mb
;参考
C
数据集,计算段内的相邻
SNP
间的
LD
系数
r2,若
r2>0.1(r2阈值可调,参数
‑
r)
,保留显著性更高
、
物理位置更小的
SNP
,否则两者均保留;完成所有染色体的
SNP
合并后,导出代表性的
SNP
信息,补充合并起始
、
终止
SNP
名称及物理位置和合并
SNP
总数目;将脚本
gwas_loci_ld_combine.py
和
D
数据集文件放在工作目录
sig_snp_combine
下,运行命令“python gwas_loci_ld_combine.py
【专利技术属性】
技术研发人员:孙程明,张洁夫,付三雄,王晓东,胡茂龙,陈锋,高建芹,张维,彭琦,郭月,周晓婴,浦惠明,
申请(专利权)人:江苏省农业科学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。